Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação

Menezes, Lisandra Cristina de Moura

Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação

dc.contributor.advisor1	Federson, Fernando Marques
dc.contributor.referee1	Federson, Fernando Marques
dc.contributor.referee1	Díaz Salazar, Aldo André
dc.contributor.referee1	Soares, Anderson da Silva
dc.contributor.referee1	Oliveira, Sávio Salvarino Teles de
dc.creator	Menezes, Lisandra Cristina de Moura
dc.date.accessioned	2026-05-08T11:21:14Z
dc.date.available	2026-05-08T11:21:14Z
dc.date.issued	2025-12-09
dc.description.abstract	This Course Completion Report aims to bring together the results of my journey to become an expert in Alignment and Optimization of LLMs via Reinforcement Learning. An illustration and its narrative describe the work periods. The Appendices contain the Delivery Acceptance Terms and the results obtained during each work period.
dc.description.resumo	Este Relatório de Conclusão de Curso tem como objetivo reunir os resultados da minha jornada para me tornar um especialista em Alinhamento e Otimização de LLMs via Aprendizado por Reforço. Uma ilustração e sua narrativa descrevem os períodos de trabalho. Os Apêndices contêm os Termos de Aceite de Entrega e os resultados obtidos durante cada período de trabalho.
dc.identifier.citation	MENEZES, Lisandra Cristina de Moura. Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação. 2025. 91 f. Trabalho de Conclusão de Curso (Bacharelado em Inteligência Artificial) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025.
dc.identifier.uri	https://repositorio.bc.ufg.br//handle/ri/30310
dc.language.iso	por
dc.publisher	Universidade Federal de Goiás
dc.publisher.country	Brasil
dc.publisher.course	Inteligência Artificial (RMG)
dc.publisher.department	Instituto de Informática - INF (RMG)
dc.publisher.initials	UFG
dc.rights	Acesso Aberto
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Inteligência artificial
dc.subject	Aprendizado por reforço
dc.subject	Modelo de linguagem grande
dc.subject	Artificial intelligence
dc.subject	Reinforcement learning
dc.subject	Large language model
dc.title	Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação
dc.type	Trabalho de conclusão de curso de graduação (TCCG)

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: TCCG - Inteligência Artificial - Lisandra Cristina de Moura Menezes - 2025.pdf
Tamanho:: 19.99 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

INF - Trabalhos de Conclusão de Curso