2026-05-062026-05-062025-12-09PEDROZO, Daniel Machado. Pós-treino de LLMs via aprendizado por reforço aprimoramento de raciocínio com ferramentas de busca externa. 2025. 57 f. Trabalho de Conclusão de Curso (Bacharelado em Inteligência Artificial) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025.https://repositorio.bc.ufg.br//handle/ri/30283This Course Completion Report aims to bring together the results of my journey to become an expert in Reinforcement Learning in LLMs. An illustration and its narrative describe the work periods. The Appendices contain the Delivery Acceptance Terms and the results obtained during each work period.porAcesso Abertohttp://creativecommons.org/licenses/by-nc-nd/4.0/Inteligência artificialLarge language modelsAprendizado por reforçoArtificial intelligenceLarge language modelsReinforcement learningPós-treino de LLMs via aprendizado por reforço aprimoramento de raciocínio com ferramentas de busca externaTrabalho de conclusão de curso de graduação (TCCG)