Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação

2026-05-082026-05-082025-12-09MENEZES, Lisandra Cristina de Moura. Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação. 2025. 91 f. Trabalho de Conclusão de Curso (Bacharelado em Inteligência Artificial) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025.https://repositorio.bc.ufg.br//handle/ri/30310This Course Completion Report aims to bring together the results of my journey to become an expert in Alignment and Optimization of LLMs via Reinforcement Learning. An illustration and its narrative describe the work periods. The Appendices contain the Delivery Acceptance Terms and the results obtained during each work period.porAcesso Abertohttp://creativecommons.org/licenses/by-nc-nd/4.0/Inteligência artificialAprendizado por reforçoModelo de linguagem grandeArtificial intelligenceReinforcement learningLarge language modelAprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilaçãoTrabalho de conclusão de curso de graduação (TCCG)