Aprimoramento de dados para SFT em português brasileiro: um estudo com modelos de língua e avaliação com LLM-as- Judge

dc.contributor.advisor1Galvão Filho, Arlindo Rodrigues
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7744765287200890
dc.contributor.referee1Galvão Filho, Arlindo Rodrigues
dc.contributor.referee1Latteshttp://lattes.cnpq.br/7744765287200890
dc.contributor.referee2Oliveira , Sávio Salvarino Teles de
dc.contributor.referee2Latteshttp://lattes.cnpq.br/1905829499839846
dc.contributor.referee3Soares, Telma Woerle de Lima
dc.contributor.referee3Latteshttp://lattes.cnpq.br/6296363436468330
dc.creatorRios, Walcy Santos Rezende
dc.creator.Latteshttp://lattes.cnpq.br/2048586902677808
dc.date.accessioned2025-10-23T19:22:17Z
dc.date.available2025-10-23T19:22:17Z
dc.date.issued2025-06-10
dc.description.abstractThe scarcity of high-quality resources for Brazilian Portuguese (pt-br) hinders the development of effective language models adapted to the language's specificities. This work investigates the impact of synthetic enhancement of conversational data, using Large Language Models (LLMs), on the Supervised Fine-Tuning (SFT) of models from the Qwen2.5 family (0.5B, 1.5B, 3B). Based on the SmolTalk dataset, two versions were generated for ptbr: one by direct translation and another with responses synthetically enhanced and rewritten by the LLM Gemini 2.0 Flash. The Qwen2.5 models were trained on both datasets and comparatively evaluated using standardized objective benchmarks for Portuguese (ENEM, HATEBR, BLUEX, ASSIN2-RTE) and through qualitative evaluation of open-ended text generation (Alpaca-Eval-BR), using Claude 3.5 Haiku as LLM-as-Judge based on relevance, precision, comprehensiveness, usefulness, and coherence criteria. The results demonstrate a significant superiority of the models trained with synthetic data in the qualitative LLM-as- Judge evaluation across all metrics. In this evaluation, the normalized average F1-Score significantly increased with synthetic data: the 1.5B model achieved 44.45 (vs 14.05 for the translated, a ~216% gain) and the 3B model reached 57.21 (vs 16.79 for the translated, a ~241% gain). In contrast, on the objective benchmarks, the positive impact of synthetic enhancement was less pronounced, being more consistent only in the 3B parameter version. It is concluded that the LLM-assisted synthetic data enhancement strategy is effective in significantly raising the quality and performance of conversational language models for Brazilian Portuguese, representing a valuable approach to mitigate the scarcity of dedicated resources and advance the development of NLP technologies better adapted to the national context.synthetic data enhancement strategy is effective in significantly raising the quality and performance of conversational language models for Brazilian Portuguese, representing a valuable approach to mitigate the scarcity of dedicated resources and advance the development of NLP technologies better adapted to the national context.eng
dc.description.resumoA carência de recursos de alta qualidade para o português brasileiro (pt-br) dificulta A carência de recursos de alta qualidade para o português brasileiro (pt-br) dificulta o desenvolvimento de modelos de linguagem eficazes e adaptados às especificidades do idioma. Este trabalho investiga o impacto do aprimoramento sintético de dados conversacionais, utilizando Large Language Models (LLMs), no treinamento supervisionado (SFT) de modelos da família Qwen2.5 (0.5B, 1.5B, 3B). Partindo do dataset SmolTalk, foram geradas duas versões para o pt-br: uma por tradução direta e outra com respostas sinteticamente aprimoradas e reescritas pelo LLM Gemini 2.0 Flash. Os modelos Qwen2.5 foram treinados com ambos os conjuntos de dados e avaliados comparativamente através de benchmarks objetivos padronizados para o português (ENEM, HATEBR, BLUEX, ASSIN2-RTE) e por meio de avaliação qualitativa de geração de texto aberto (Alpaca-Eval-BR), utilizando o Claude 3.5 Haiku como LLM-as-Judge com base em critérios de relevância, precisão, abrangência, utilidade e coerência. Os resultados demonstram uma superioridade significativa dos modelos treinados com dados sintéticos na avaliação qualitativa LLM-as-Judge em todas as métricas. Nesta avaliação, a pontuação média normalizada aumentou expressivamente com dados sintéticos: o modelo 1.5B alcançou 44.45 (vs 14.05 do traduzido, um ganho de ~216%) e o modelo 3B atingiu 57.21 (vs 16.79 do traduzido, um ganho de ~241%). Em contrapartida, nos benchmarks objetivos, o impacto positivo do aprimoramento sintético foi menos acentuado, sendo mais consistente apenas na versão de 3B parâmetros. Conclui-se que a estratégia de aprimoramento sintético de dados assistida por LLM é eficaz para elevar significativamente a qualidade e o desempenho de modelos de linguagem conversacionais em português brasileiro, representando uma abordagem valiosa para mitigar a escassez de recursos dedicados e avançar no desenvolvimento de tecnologias de NLP mais adaptadas ao contexto nacional.
dc.description.sponsorshipOutro
dc.identifier.citationRIOS, W. S. R. Aprimoramento de dados para SFT em português brasileiro: um estudo com modelos de língua e avaliação com LLM-as- Judge. 2025. 42 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática , Universidade Federal de Goiás, Goiânia, 2025.
dc.identifier.urihttps://repositorio.bc.ufg.br/tede/handle/tede/14816
dc.languagePortuguêspor
dc.publisherUniversidade Federal de Goiáspor
dc.publisher.countryBrasilpor
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.publisher.initialsUFGpor
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectLLMpor
dc.subjectSFTpor
dc.subjectDados sintéticospor
dc.subjectAvaliação com LLMpor
dc.subjectSynthetic dataeng
dc.subjectLLM-as-Judgeeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleAprimoramento de dados para SFT em português brasileiro: um estudo com modelos de língua e avaliação com LLM-as- Judge
dc.title.alternativeData refinement for SFT in brazilian portuguese: a study with language models and evaluation via LLM-as- Judgeeng
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação - Walcy Santos Rezende Rios - 2025.pdf
Tamanho:
10.11 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: