Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação
| dc.contributor.advisor1 | Federson, Fernando Marques | |
| dc.contributor.referee1 | Federson, Fernando Marques | |
| dc.contributor.referee1 | Díaz Salazar, Aldo André | |
| dc.contributor.referee1 | Soares, Anderson da Silva | |
| dc.contributor.referee1 | Oliveira, Sávio Salvarino Teles de | |
| dc.creator | Menezes, Lisandra Cristina de Moura | |
| dc.date.accessioned | 2026-05-08T11:21:14Z | |
| dc.date.available | 2026-05-08T11:21:14Z | |
| dc.date.issued | 2025-12-09 | |
| dc.description.abstract | This Course Completion Report aims to bring together the results of my journey to become an expert in Alignment and Optimization of LLMs via Reinforcement Learning. An illustration and its narrative describe the work periods. The Appendices contain the Delivery Acceptance Terms and the results obtained during each work period. | |
| dc.description.resumo | Este Relatório de Conclusão de Curso tem como objetivo reunir os resultados da minha jornada para me tornar um especialista em Alinhamento e Otimização de LLMs via Aprendizado por Reforço. Uma ilustração e sua narrativa descrevem os períodos de trabalho. Os Apêndices contêm os Termos de Aceite de Entrega e os resultados obtidos durante cada período de trabalho. | |
| dc.identifier.citation | MENEZES, Lisandra Cristina de Moura. Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação. 2025. 91 f. Trabalho de Conclusão de Curso (Bacharelado em Inteligência Artificial) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025. | |
| dc.identifier.uri | https://repositorio.bc.ufg.br//handle/ri/30310 | |
| dc.language.iso | por | |
| dc.publisher | Universidade Federal de Goiás | |
| dc.publisher.country | Brasil | |
| dc.publisher.course | Inteligência Artificial (RMG) | |
| dc.publisher.department | Instituto de Informática - INF (RMG) | |
| dc.publisher.initials | UFG | |
| dc.rights | Acesso Aberto | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Inteligência artificial | |
| dc.subject | Aprendizado por reforço | |
| dc.subject | Modelo de linguagem grande | |
| dc.subject | Artificial intelligence | |
| dc.subject | Reinforcement learning | |
| dc.subject | Large language model | |
| dc.title | Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação | |
| dc.type | Trabalho de conclusão de curso de graduação (TCCG) |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- TCCG - Inteligência Artificial - Lisandra Cristina de Moura Menezes - 2025.pdf
- Tamanho:
- 19.99 MB
- Formato:
- Adobe Portable Document Format
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: