Legal Domain Adaptation in Portuguese Language Models - Developing and Evaluating RoBERTa-based Models on Legal Corpora

Garcia, Eduardo Augusto Santos

Legal Domain Adaptation in Portuguese Language Models - Developing and Evaluating RoBERTa-based Models on Legal Corpora

dc.contributor.advisor-co1	Lima, Eliomar Araújo de
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/1362170231777201
dc.contributor.advisor1	Silva, Nádia Félix Felipe da
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/7864834001694765
dc.contributor.referee1	Silva, Nádia Félix Felipe da
dc.contributor.referee2	Lima, Eliomar Araújo de
dc.contributor.referee3	Soares, Anderson da Silva
dc.contributor.referee4	Placca, José Avelino
dc.creator	Garcia, Eduardo Augusto Santos
dc.creator.Lattes	http://lattes.cnpq.br/4332449817645365
dc.date.accessioned	2025-01-15T14:46:17Z
dc.date.available	2025-01-15T14:46:17Z
dc.date.issued	2024-05-28
dc.description.abstract	This research investigates the application of Natural Language Processing (NLP) within the legal domain for the Portuguese language, emphasizing the importance of domain adaptation for pre-trained language models, such as RoBERTa, using specialized legal corpora. We compiled and pre-processed a Portuguese legal corpus, named LegalPT, addressing the challenges of high near-duplicate document rates in legal corpora and conducting a comparison with generic web-scraped corpora. Experiments with these corpora revealed that pre-training on a combined dataset of legal and general data resulted in a more effective model for legal tasks. Our model, called RoBERTaLexPT, outperformed larger models trained solely on generic corpora, such as BERTimbau and Albertina-PT-*, and other legal models from similar works. For evaluating the performance of these models, we propose in this Master’s dissertation a legal benchmark composed of several datasets, including LeNER-Br, RRI, FGV, UlyssesNER-Br, CEIAEntidades, and CEIA-Frases. This study contributes to the improvement of NLP solutions in the Brazilian legal context by openly providing enhanced models, a specialized corpus, and a rigorous benchmark suite.	eng
dc.description.resumo	Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico em língua portuguesa, com ênfase na importância da adaptação de domínio para modelos de linguagem pré-treinados, como o RoBERTa, a partir de conjunto de dados com documentos de domínio legal. Compilamos e pré-processamos um corpus jurídico português, denominado LegalPT, no qual abordamos os desafios da alta quantidade de quase duplicatas em corpora legais e realizamos uma comparação com corpora genéricos de raspagem da Web. Experimentos com esses dados revelaram que o pré-treinamento com dados jurídicos e gerais resultou em um modelo mais eficaz para tarefas jurídicas. O nosso modelo, denominado RoBERTaLexPT, superou arquiteturas maiores treinadas apenas em corpora genéricos, como o BERTimbau e Albertina-PT-*, e outros modelos jurídicos de trabalhos similares. Para a avaliação do desempenho desses modelos, propomos nesta dissertação de mestrado um benchmark jurídico composto por diversos conjuntos de dados, incluindo LeNER-Br, RRI, FGV, UlyssesNER-Br, CEIAEntidades e CEIA-Frases. Este estudo contribui para aprimorar as soluções de PLN no contexto legal brasileiro, disponibilizando de forma aberta modelos aprimorados, um corpus especializado e um conjunto de benchmark rigoroso.
dc.identifier.citation	GARCIA, E. A. S. Legal Domain Adaptation in Portuguese Language Models - Developing and Evaluating RoBERTa-based Models on Legal Corpora. 2024. 82 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.
dc.identifier.uri	http://repositorio.bc.ufg.br/tede/handle/tede/13781
dc.language	por
dc.publisher	Universidade Federal de Goiás
dc.publisher.country	Brasil
dc.publisher.department	Instituto de Informática - INF (RMG)
dc.publisher.initials	UFG
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação (INF)
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Processamento de linguagem natural	por
dc.subject	Modelo de linguagem	por
dc.subject	Domínio legal	por
dc.subject	Benchmark Jurídico	por
dc.subject	Natural language processing	eng
dc.subject	Language model,	eng
dc.subject	Legal Domain	eng
dc.subject	Legal Benchmark	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.title	Legal Domain Adaptation in Portuguese Language Models - Developing and Evaluating RoBERTa-based Models on Legal Corpora
dc.title.alternative	Adaptação de domínio Legal em Modelos de Linguagens em português - Desenvolvimento e avaliação de modelos baseados em RoBERTa em corpora legais	eng
dc.type	Dissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Dissertação - Eduardo Augusto Santos Garcia - 2024.pdf
Tamanho:: 576.49 KB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Mestrado em Ciência da Computação (INF)