Análise de técnicas de ajuste fino em classificação de texto

Pires, Tobias Gonçalves

Análise de técnicas de ajuste fino em classificação de texto

dc.contributor.advisor1	Soares, Anderson da Silva
dc.contributor.referee1	Soares, Anderson da Silva
dc.contributor.referee2	Fanucchi, Rodrigo Zempulski
dc.contributor.referee3	Galvão Filho, Arlindo Rodrigues
dc.creator	Pires, Tobias Gonçalves
dc.creator.Lattes	http://lattes.cnpq.br/2548852490322082
dc.date.accessioned	2024-12-18T12:22:31Z
dc.date.available	2024-12-18T12:22:31Z
dc.date.issued	2024-09-23
dc.description.abstract	Natural Language Processing (NLP) aims to develop models that enable computers to understand, interpret, process and generate text in a way similar to human communication. The last decade has seen significant advances in the field, with the introduction of deep neural network models, and the subsequent evolution of the architecture of these models such as the attention mechanism and the Transformers architecture, culminating in language models such as ELMo, BERT and GPT. And later models called Large Language Models (LLMs) improved the ability to understand and generate texts in a sophisticated way. Pre-trained models offer the advantage of reusing knowledge accumulated from vast datasets, although specific fine-tuning is required for individual tasks. However, training and tuning these models consumes a lot of processing resources, making it unfeasible for many organizations due to high costs. In resource-constrained environments, efficient fine-tuning techniques such as LoRA (Low-Rank Adaptation) were developed to optimize the model adaptation process, minimizing the number of adjustable parameters and avoiding overfitting. These techniques allow for faster and more economical training, while maintaining the robustness and generalization of the models. This work evaluates three efficient fine-tuning techniques LoRA, AdaLoRA and IA3 (in addition to full fine-tuning) in terms of memory consumption, training time and accuracy, using the DistilBERT, Roberta-base and TinyLlama models on different datasets (AG News, IMDb and SNLI).	por
dc.description.resumo	O Processamento de Linguagem Natural (PLN) visa desenvolver modelos que capacitem computadores a compreender, interpretar, processar e gerar texto de maneira semelhante à comunicação humana. A última década presenciou avanços significativos na área com a introdução de modelos de redes neurais profundas. A subsequente evolução da arquitetura desses modelos como o mecanismo de atenção e a arquitetura Transformers, culminou em modelos de linguagem como ELMo, BERT e GPT. E, posteriormente modelos denominados grandes modelos de linguagem que melhoraram a capacidade de entender e gerar textos de forma sofisticada. Modelos pré-treinados oferecem a vantagem de reutilizar conhecimento acumulado de vastos conjuntos de dados, embora ajustes finos específicos sejam necessários para tarefas individuais. No entanto, o treinamento e ajuste desses modelos consomem muitos recursos de processamento, tornando-se inviáveis para muitas organizações devido aos altos custos. Em ambientes com restrições de recursos, técnicas de ajuste fino eficientes como o LoRA (Low-Rank Adaptation) foram desenvolvidas para otimizar o processo de adaptação de modelos, minimizando a quantidade de parâmetros ajustáveis e no caso do LoRA evitando o overfitting [19]. Essas técnicas permitem um treinamento mais rápido e econômico, mantendo a robustez e generalização dos modelos. Este trabalho avalia três técnicas de ajuste fino eficientes LoRA, AdaLoRA e IA3 (além do ajuste fino completo) em termos de consumo de memória, tempo de treinamento e acurácia, utilizando os modelos DistilBERT, Roberta-base e TinyLlama em três diferentes datasets AG News (AG’s News Corpus), IMDb e SNLI (Stanford Natural Language Inference)
dc.identifier.citation	PIRES, T. G. Análise de técnicas de ajuste fino em classificação de texto. 2024. 80 f. Dissertação (Mestrado em ciência da computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.
dc.identifier.uri	http://repositorio.bc.ufg.br/tede/handle/tede/13751
dc.language	por
dc.publisher	Universidade Federal de Goiás
dc.publisher.country	Brasil
dc.publisher.department	Instituto de Informática - INF (RMG)
dc.publisher.initials	UFG
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação (INF)
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Processamento de Linguagem Natural	por
dc.subject	Bidirectional Encoder Representations for Transformers	por
dc.subject	Embeddings from Language Models	por
dc.subject	Generative Pre-trained transformer	por
dc.subject	Low-Rank Adaptation	por
dc.subject	Adaptative Low-Rank Adaptation	por
dc.subject	Internet Movie Database	por
dc.subject	Stanford Natural Language Inference	eng
dc.subject	Natural Language Processing	eng
dc.subject	Large Language Models	eng
dc.subject	Bidirectional Encoder Representations for Transformers	eng
dc.subject	Embeddings from Language Models	eng
dc.subject	Generative Pretrained transformer	eng
dc.subject	Low-Rank Adaptation	eng
dc.subject	Adaptative Low-Rank Adaptation	eng
dc.subject	Internet Movie Database	eng
dc.subject	Stanford Natural Language Inference	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.title	Análise de técnicas de ajuste fino em classificação de texto
dc.title.alternative	Analysis of fine-tuning techniques in text classification	eng
dc.type	Dissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Dissertação - Tobias Gonçalves Pires - 2024.pdf
Tamanho:: 1.73 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Mestrado em Ciência da Computação (INF)