Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação

Menezes, Lisandra Cristina de Moura

Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação

Arquivos

TCCG - Inteligência Artificial - Lisandra Cristina de Moura Menezes - 2025.pdf (19.99 MB)

Data

2025-12-09

Autores

Menezes, Lisandra Cristina de Moura

Editor

Universidade Federal de Goiás

Resumo

This Course Completion Report aims to bring together the results of my journey to become an expert in Alignment and Optimization of LLMs via Reinforcement Learning. An illustration and its narrative describe the work periods. The Appendices contain the Delivery Acceptance Terms and the results obtained during each work period.

Palavras-chave

Inteligência artificial, Aprendizado por reforço, Modelo de linguagem grande, Artificial intelligence, Reinforcement learning, Large language model

Citação

MENEZES, Lisandra Cristina de Moura. Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação. 2025. 91 f. Trabalho de Conclusão de Curso (Bacharelado em Inteligência Artificial) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025.

URI

https://repositorio.bc.ufg.br//handle/ri/30310

Coleções

INF - Trabalhos de Conclusão de Curso

Página do item completo

Aprendizado por reforço para alinhamento de LLMs estudo comparativo de estratégias de recompensa pós-destilação

Arquivos

Data

Autores

Título da Revista

ISSN da Revista

Título de Volume

Editor

Resumo

Descrição

Palavras-chave

Citação

URI

Coleções