Aprimoramento de dados para SFT em português brasileiro: um estudo com modelos de língua e avaliação com LLM-as- Judge
dc.contributor.advisor1 | Galvão Filho, Arlindo Rodrigues | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/7744765287200890 | |
dc.contributor.referee1 | Galvão Filho, Arlindo Rodrigues | |
dc.contributor.referee1Lattes | http://lattes.cnpq.br/7744765287200890 | |
dc.contributor.referee2 | Oliveira , Sávio Salvarino Teles de | |
dc.contributor.referee2Lattes | http://lattes.cnpq.br/1905829499839846 | |
dc.contributor.referee3 | Soares, Telma Woerle de Lima | |
dc.contributor.referee3Lattes | http://lattes.cnpq.br/6296363436468330 | |
dc.creator | Rios, Walcy Santos Rezende | |
dc.creator.Lattes | http://lattes.cnpq.br/2048586902677808 | |
dc.date.accessioned | 2025-10-23T19:22:17Z | |
dc.date.available | 2025-10-23T19:22:17Z | |
dc.date.issued | 2025-06-10 | |
dc.description.abstract | The scarcity of high-quality resources for Brazilian Portuguese (pt-br) hinders the development of effective language models adapted to the language's specificities. This work investigates the impact of synthetic enhancement of conversational data, using Large Language Models (LLMs), on the Supervised Fine-Tuning (SFT) of models from the Qwen2.5 family (0.5B, 1.5B, 3B). Based on the SmolTalk dataset, two versions were generated for ptbr: one by direct translation and another with responses synthetically enhanced and rewritten by the LLM Gemini 2.0 Flash. The Qwen2.5 models were trained on both datasets and comparatively evaluated using standardized objective benchmarks for Portuguese (ENEM, HATEBR, BLUEX, ASSIN2-RTE) and through qualitative evaluation of open-ended text generation (Alpaca-Eval-BR), using Claude 3.5 Haiku as LLM-as-Judge based on relevance, precision, comprehensiveness, usefulness, and coherence criteria. The results demonstrate a significant superiority of the models trained with synthetic data in the qualitative LLM-as- Judge evaluation across all metrics. In this evaluation, the normalized average F1-Score significantly increased with synthetic data: the 1.5B model achieved 44.45 (vs 14.05 for the translated, a ~216% gain) and the 3B model reached 57.21 (vs 16.79 for the translated, a ~241% gain). In contrast, on the objective benchmarks, the positive impact of synthetic enhancement was less pronounced, being more consistent only in the 3B parameter version. It is concluded that the LLM-assisted synthetic data enhancement strategy is effective in significantly raising the quality and performance of conversational language models for Brazilian Portuguese, representing a valuable approach to mitigate the scarcity of dedicated resources and advance the development of NLP technologies better adapted to the national context.synthetic data enhancement strategy is effective in significantly raising the quality and performance of conversational language models for Brazilian Portuguese, representing a valuable approach to mitigate the scarcity of dedicated resources and advance the development of NLP technologies better adapted to the national context. | eng |
dc.description.resumo | A carência de recursos de alta qualidade para o português brasileiro (pt-br) dificulta A carência de recursos de alta qualidade para o português brasileiro (pt-br) dificulta o desenvolvimento de modelos de linguagem eficazes e adaptados às especificidades do idioma. Este trabalho investiga o impacto do aprimoramento sintético de dados conversacionais, utilizando Large Language Models (LLMs), no treinamento supervisionado (SFT) de modelos da família Qwen2.5 (0.5B, 1.5B, 3B). Partindo do dataset SmolTalk, foram geradas duas versões para o pt-br: uma por tradução direta e outra com respostas sinteticamente aprimoradas e reescritas pelo LLM Gemini 2.0 Flash. Os modelos Qwen2.5 foram treinados com ambos os conjuntos de dados e avaliados comparativamente através de benchmarks objetivos padronizados para o português (ENEM, HATEBR, BLUEX, ASSIN2-RTE) e por meio de avaliação qualitativa de geração de texto aberto (Alpaca-Eval-BR), utilizando o Claude 3.5 Haiku como LLM-as-Judge com base em critérios de relevância, precisão, abrangência, utilidade e coerência. Os resultados demonstram uma superioridade significativa dos modelos treinados com dados sintéticos na avaliação qualitativa LLM-as-Judge em todas as métricas. Nesta avaliação, a pontuação média normalizada aumentou expressivamente com dados sintéticos: o modelo 1.5B alcançou 44.45 (vs 14.05 do traduzido, um ganho de ~216%) e o modelo 3B atingiu 57.21 (vs 16.79 do traduzido, um ganho de ~241%). Em contrapartida, nos benchmarks objetivos, o impacto positivo do aprimoramento sintético foi menos acentuado, sendo mais consistente apenas na versão de 3B parâmetros. Conclui-se que a estratégia de aprimoramento sintético de dados assistida por LLM é eficaz para elevar significativamente a qualidade e o desempenho de modelos de linguagem conversacionais em português brasileiro, representando uma abordagem valiosa para mitigar a escassez de recursos dedicados e avançar no desenvolvimento de tecnologias de NLP mais adaptadas ao contexto nacional. | |
dc.description.sponsorship | Outro | |
dc.identifier.citation | RIOS, W. S. R. Aprimoramento de dados para SFT em português brasileiro: um estudo com modelos de língua e avaliação com LLM-as- Judge. 2025. 42 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática , Universidade Federal de Goiás, Goiânia, 2025. | |
dc.identifier.uri | https://repositorio.bc.ufg.br/tede/handle/tede/14816 | |
dc.language | Português | por |
dc.publisher | Universidade Federal de Goiás | por |
dc.publisher.country | Brasil | por |
dc.publisher.department | Instituto de Informática - INF (RMG) | |
dc.publisher.initials | UFG | por |
dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | |
dc.rights | Acesso Aberto | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | LLM | por |
dc.subject | SFT | por |
dc.subject | Dados sintéticos | por |
dc.subject | Avaliação com LLM | por |
dc.subject | Synthetic data | eng |
dc.subject | LLM-as-Judge | eng |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
dc.title | Aprimoramento de dados para SFT em português brasileiro: um estudo com modelos de língua e avaliação com LLM-as- Judge | |
dc.title.alternative | Data refinement for SFT in brazilian portuguese: a study with language models and evaluation via LLM-as- Judge | eng |
dc.type | Dissertação |