Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação

dc.contributor.advisor1Federson, Fernando Marques
dc.contributor.referee1Federson, Fernando Marques
dc.contributor.referee1Díaz Salazar, Aldo André
dc.contributor.referee1Soares, Anderson da Silva
dc.contributor.referee1Oliveira, Sávio Salvarino Teles de
dc.creatorMenezes, Lisandra Cristina de Moura
dc.date.accessioned2026-05-08T11:21:14Z
dc.date.available2026-05-08T11:21:14Z
dc.date.issued2025-12-09
dc.description.abstractThis Course Completion Report aims to bring together the results of my journey to become an expert in Alignment and Optimization of LLMs via Reinforcement Learning. An illustration and its narrative describe the work periods. The Appendices contain the Delivery Acceptance Terms and the results obtained during each work period.
dc.description.resumoEste Relatório de Conclusão de Curso tem como objetivo reunir os resultados da minha jornada para me tornar um especialista em Alinhamento e Otimização de LLMs via Aprendizado por Reforço. Uma ilustração e sua narrativa descrevem os períodos de trabalho. Os Apêndices contêm os Termos de Aceite de Entrega e os resultados obtidos durante cada período de trabalho.
dc.identifier.citationMENEZES, Lisandra Cristina de Moura. Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação. 2025. 91 f. Trabalho de Conclusão de Curso (Bacharelado em Inteligência Artificial) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025.
dc.identifier.urihttps://repositorio.bc.ufg.br//handle/ri/30310
dc.language.isopor
dc.publisherUniversidade Federal de Goiás
dc.publisher.countryBrasil
dc.publisher.courseInteligência Artificial (RMG)
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.publisher.initialsUFG
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectInteligência artificial
dc.subjectAprendizado por reforço
dc.subjectModelo de linguagem grande
dc.subjectArtificial intelligence
dc.subjectReinforcement learning
dc.subjectLarge language model
dc.titleAprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação
dc.typeTrabalho de conclusão de curso de graduação (TCCG)

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TCCG - Inteligência Artificial - Lisandra Cristina de Moura Menezes - 2025.pdf
Tamanho:
19.99 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: