Análise de técnicas de ajuste fino em classificação de texto

dc.contributor.advisor1Soares, Anderson da Silva
dc.contributor.referee1Soares, Anderson da Silva
dc.contributor.referee2Fanucchi, Rodrigo Zempulski
dc.contributor.referee3Galvão Filho, Arlindo Rodrigues
dc.creatorPires, Tobias Gonçalves
dc.creator.Latteshttp://lattes.cnpq.br/2548852490322082
dc.date.accessioned2024-12-18T12:22:31Z
dc.date.available2024-12-18T12:22:31Z
dc.date.issued2024-09-23
dc.description.abstractNatural Language Processing (NLP) aims to develop models that enable computers to understand, interpret, process and generate text in a way similar to human communication. The last decade has seen significant advances in the field, with the introduction of deep neural network models, and the subsequent evolution of the architecture of these models such as the attention mechanism and the Transformers architecture, culminating in language models such as ELMo, BERT and GPT. And later models called Large Language Models (LLMs) improved the ability to understand and generate texts in a sophisticated way. Pre-trained models offer the advantage of reusing knowledge accumulated from vast datasets, although specific fine-tuning is required for individual tasks. However, training and tuning these models consumes a lot of processing resources, making it unfeasible for many organizations due to high costs. In resource-constrained environments, efficient fine-tuning techniques such as LoRA (Low-Rank Adaptation) were developed to optimize the model adaptation process, minimizing the number of adjustable parameters and avoiding overfitting. These techniques allow for faster and more economical training, while maintaining the robustness and generalization of the models. This work evaluates three efficient fine-tuning techniques LoRA, AdaLoRA and IA3 (in addition to full fine-tuning) in terms of memory consumption, training time and accuracy, using the DistilBERT, Roberta-base and TinyLlama models on different datasets (AG News, IMDb and SNLI).por
dc.description.resumoO Processamento de Linguagem Natural (PLN) visa desenvolver modelos que capacitem computadores a compreender, interpretar, processar e gerar texto de maneira semelhante à comunicação humana. A última década presenciou avanços significativos na área com a introdução de modelos de redes neurais profundas. A subsequente evolução da arquitetura desses modelos como o mecanismo de atenção e a arquitetura Transformers, culminou em modelos de linguagem como ELMo, BERT e GPT. E, posteriormente modelos denominados grandes modelos de linguagem que melhoraram a capacidade de entender e gerar textos de forma sofisticada. Modelos pré-treinados oferecem a vantagem de reutilizar conhecimento acumulado de vastos conjuntos de dados, embora ajustes finos específicos sejam necessários para tarefas individuais. No entanto, o treinamento e ajuste desses modelos consomem muitos recursos de processamento, tornando-se inviáveis para muitas organizações devido aos altos custos. Em ambientes com restrições de recursos, técnicas de ajuste fino eficientes como o LoRA (Low-Rank Adaptation) foram desenvolvidas para otimizar o processo de adaptação de modelos, minimizando a quantidade de parâmetros ajustáveis e no caso do LoRA evitando o overfitting [19]. Essas técnicas permitem um treinamento mais rápido e econômico, mantendo a robustez e generalização dos modelos. Este trabalho avalia três técnicas de ajuste fino eficientes LoRA, AdaLoRA e IA3 (além do ajuste fino completo) em termos de consumo de memória, tempo de treinamento e acurácia, utilizando os modelos DistilBERT, Roberta-base e TinyLlama em três diferentes datasets AG News (AG’s News Corpus), IMDb e SNLI (Stanford Natural Language Inference)
dc.identifier.citationPIRES, T. G. Análise de técnicas de ajuste fino em classificação de texto. 2024. 80 f. Dissertação (Mestrado em ciência da computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/13751
dc.languagepor
dc.publisherUniversidade Federal de Goiás
dc.publisher.countryBrasil
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.publisher.initialsUFG
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectProcessamento de Linguagem Naturalpor
dc.subjectBidirectional Encoder Representations for Transformerspor
dc.subjectEmbeddings from Language Modelspor
dc.subjectGenerative Pre-trained transformerpor
dc.subjectLow-Rank Adaptationpor
dc.subjectAdaptative Low-Rank Adaptationpor
dc.subjectInternet Movie Databasepor
dc.subjectStanford Natural Language Inferenceeng
dc.subjectNatural Language Processingeng
dc.subjectLarge Language Modelseng
dc.subjectBidirectional Encoder Representations for Transformerseng
dc.subjectEmbeddings from Language Modelseng
dc.subjectGenerative Pretrained transformereng
dc.subjectLow-Rank Adaptationeng
dc.subjectAdaptative Low-Rank Adaptationeng
dc.subjectInternet Movie Databaseeng
dc.subjectStanford Natural Language Inferenceeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleAnálise de técnicas de ajuste fino em classificação de texto
dc.title.alternativeAnalysis of fine-tuning techniques in text classificationeng
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação - Tobias Gonçalves Pires - 2024.pdf
Tamanho:
1.73 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: