Legal Domain Adaptation in Portuguese Language Models - Developing and Evaluating RoBERTa-based Models on Legal Corpora
dc.contributor.advisor-co1 | Lima, Eliomar Araújo de | |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/1362170231777201 | |
dc.contributor.advisor1 | Silva, Nádia Félix Felipe da | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/7864834001694765 | |
dc.contributor.referee1 | Silva, Nádia Félix Felipe da | |
dc.contributor.referee2 | Lima, Eliomar Araújo de | |
dc.contributor.referee3 | Soares, Anderson da Silva | |
dc.contributor.referee4 | Placca, José Avelino | |
dc.creator | Garcia, Eduardo Augusto Santos | |
dc.creator.Lattes | http://lattes.cnpq.br/4332449817645365 | |
dc.date.accessioned | 2025-01-15T14:46:17Z | |
dc.date.available | 2025-01-15T14:46:17Z | |
dc.date.issued | 2024-05-28 | |
dc.description.abstract | This research investigates the application of Natural Language Processing (NLP) within the legal domain for the Portuguese language, emphasizing the importance of domain adaptation for pre-trained language models, such as RoBERTa, using specialized legal corpora. We compiled and pre-processed a Portuguese legal corpus, named LegalPT, addressing the challenges of high near-duplicate document rates in legal corpora and conducting a comparison with generic web-scraped corpora. Experiments with these corpora revealed that pre-training on a combined dataset of legal and general data resulted in a more effective model for legal tasks. Our model, called RoBERTaLexPT, outperformed larger models trained solely on generic corpora, such as BERTimbau and Albertina-PT-*, and other legal models from similar works. For evaluating the performance of these models, we propose in this Master’s dissertation a legal benchmark composed of several datasets, including LeNER-Br, RRI, FGV, UlyssesNER-Br, CEIAEntidades, and CEIA-Frases. This study contributes to the improvement of NLP solutions in the Brazilian legal context by openly providing enhanced models, a specialized corpus, and a rigorous benchmark suite. | eng |
dc.description.resumo | Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico em língua portuguesa, com ênfase na importância da adaptação de domínio para modelos de linguagem pré-treinados, como o RoBERTa, a partir de conjunto de dados com documentos de domínio legal. Compilamos e pré-processamos um corpus jurídico português, denominado LegalPT, no qual abordamos os desafios da alta quantidade de quase duplicatas em corpora legais e realizamos uma comparação com corpora genéricos de raspagem da Web. Experimentos com esses dados revelaram que o pré-treinamento com dados jurídicos e gerais resultou em um modelo mais eficaz para tarefas jurídicas. O nosso modelo, denominado RoBERTaLexPT, superou arquiteturas maiores treinadas apenas em corpora genéricos, como o BERTimbau e Albertina-PT-*, e outros modelos jurídicos de trabalhos similares. Para a avaliação do desempenho desses modelos, propomos nesta dissertação de mestrado um benchmark jurídico composto por diversos conjuntos de dados, incluindo LeNER-Br, RRI, FGV, UlyssesNER-Br, CEIAEntidades e CEIA-Frases. Este estudo contribui para aprimorar as soluções de PLN no contexto legal brasileiro, disponibilizando de forma aberta modelos aprimorados, um corpus especializado e um conjunto de benchmark rigoroso. | |
dc.identifier.citation | GARCIA, E. A. S. Legal Domain Adaptation in Portuguese Language Models - Developing and Evaluating RoBERTa-based Models on Legal Corpora. 2024. 82 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024. | |
dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/13781 | |
dc.language | por | |
dc.publisher | Universidade Federal de Goiás | |
dc.publisher.country | Brasil | |
dc.publisher.department | Instituto de Informática - INF (RMG) | |
dc.publisher.initials | UFG | |
dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Processamento de linguagem natural | por |
dc.subject | Modelo de linguagem | por |
dc.subject | Domínio legal | por |
dc.subject | Benchmark Jurídico | por |
dc.subject | Natural language processing | eng |
dc.subject | Language model, | eng |
dc.subject | Legal Domain | eng |
dc.subject | Legal Benchmark | eng |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
dc.title | Legal Domain Adaptation in Portuguese Language Models - Developing and Evaluating RoBERTa-based Models on Legal Corpora | |
dc.title.alternative | Adaptação de domínio Legal em Modelos de Linguagens em português - Desenvolvimento e avaliação de modelos baseados em RoBERTa em corpora legais | eng |
dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Dissertação - Eduardo Augusto Santos Garcia - 2024.pdf
- Tamanho:
- 576.49 KB
- Formato:
- Adobe Portable Document Format
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: