Análise de técnicas de ajuste fino em classificação de texto
| dc.contributor.advisor1 | Soares, Anderson da Silva | |
| dc.contributor.referee1 | Soares, Anderson da Silva | |
| dc.contributor.referee2 | Fanucchi, Rodrigo Zempulski | |
| dc.contributor.referee3 | Galvão Filho, Arlindo Rodrigues | |
| dc.creator | Pires, Tobias Gonçalves | |
| dc.creator.Lattes | http://lattes.cnpq.br/2548852490322082 | |
| dc.date.accessioned | 2024-12-18T12:22:31Z | |
| dc.date.available | 2024-12-18T12:22:31Z | |
| dc.date.issued | 2024-09-23 | |
| dc.description.abstract | Natural Language Processing (NLP) aims to develop models that enable computers to understand, interpret, process and generate text in a way similar to human communication. The last decade has seen significant advances in the field, with the introduction of deep neural network models, and the subsequent evolution of the architecture of these models such as the attention mechanism and the Transformers architecture, culminating in language models such as ELMo, BERT and GPT. And later models called Large Language Models (LLMs) improved the ability to understand and generate texts in a sophisticated way. Pre-trained models offer the advantage of reusing knowledge accumulated from vast datasets, although specific fine-tuning is required for individual tasks. However, training and tuning these models consumes a lot of processing resources, making it unfeasible for many organizations due to high costs. In resource-constrained environments, efficient fine-tuning techniques such as LoRA (Low-Rank Adaptation) were developed to optimize the model adaptation process, minimizing the number of adjustable parameters and avoiding overfitting. These techniques allow for faster and more economical training, while maintaining the robustness and generalization of the models. This work evaluates three efficient fine-tuning techniques LoRA, AdaLoRA and IA3 (in addition to full fine-tuning) in terms of memory consumption, training time and accuracy, using the DistilBERT, Roberta-base and TinyLlama models on different datasets (AG News, IMDb and SNLI). | por |
| dc.description.resumo | O Processamento de Linguagem Natural (PLN) visa desenvolver modelos que capacitem computadores a compreender, interpretar, processar e gerar texto de maneira semelhante à comunicação humana. A última década presenciou avanços significativos na área com a introdução de modelos de redes neurais profundas. A subsequente evolução da arquitetura desses modelos como o mecanismo de atenção e a arquitetura Transformers, culminou em modelos de linguagem como ELMo, BERT e GPT. E, posteriormente modelos denominados grandes modelos de linguagem que melhoraram a capacidade de entender e gerar textos de forma sofisticada. Modelos pré-treinados oferecem a vantagem de reutilizar conhecimento acumulado de vastos conjuntos de dados, embora ajustes finos específicos sejam necessários para tarefas individuais. No entanto, o treinamento e ajuste desses modelos consomem muitos recursos de processamento, tornando-se inviáveis para muitas organizações devido aos altos custos. Em ambientes com restrições de recursos, técnicas de ajuste fino eficientes como o LoRA (Low-Rank Adaptation) foram desenvolvidas para otimizar o processo de adaptação de modelos, minimizando a quantidade de parâmetros ajustáveis e no caso do LoRA evitando o overfitting [19]. Essas técnicas permitem um treinamento mais rápido e econômico, mantendo a robustez e generalização dos modelos. Este trabalho avalia três técnicas de ajuste fino eficientes LoRA, AdaLoRA e IA3 (além do ajuste fino completo) em termos de consumo de memória, tempo de treinamento e acurácia, utilizando os modelos DistilBERT, Roberta-base e TinyLlama em três diferentes datasets AG News (AG’s News Corpus), IMDb e SNLI (Stanford Natural Language Inference) | |
| dc.identifier.citation | PIRES, T. G. Análise de técnicas de ajuste fino em classificação de texto. 2024. 80 f. Dissertação (Mestrado em ciência da computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024. | |
| dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/13751 | |
| dc.language | por | |
| dc.publisher | Universidade Federal de Goiás | |
| dc.publisher.country | Brasil | |
| dc.publisher.department | Instituto de Informática - INF (RMG) | |
| dc.publisher.initials | UFG | |
| dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | |
| dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Processamento de Linguagem Natural | por |
| dc.subject | Bidirectional Encoder Representations for Transformers | por |
| dc.subject | Embeddings from Language Models | por |
| dc.subject | Generative Pre-trained transformer | por |
| dc.subject | Low-Rank Adaptation | por |
| dc.subject | Adaptative Low-Rank Adaptation | por |
| dc.subject | Internet Movie Database | por |
| dc.subject | Stanford Natural Language Inference | eng |
| dc.subject | Natural Language Processing | eng |
| dc.subject | Large Language Models | eng |
| dc.subject | Bidirectional Encoder Representations for Transformers | eng |
| dc.subject | Embeddings from Language Models | eng |
| dc.subject | Generative Pretrained transformer | eng |
| dc.subject | Low-Rank Adaptation | eng |
| dc.subject | Adaptative Low-Rank Adaptation | eng |
| dc.subject | Internet Movie Database | eng |
| dc.subject | Stanford Natural Language Inference | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
| dc.title | Análise de técnicas de ajuste fino em classificação de texto | |
| dc.title.alternative | Analysis of fine-tuning techniques in text classification | eng |
| dc.type | Dissertação |