Avaliação de Grandes Modelos de Linguagem para Classificação de Documentos Jurídicos em Português

Santos, Willgnner Ferreira

Avaliação de Grandes Modelos de Linguagem para Classificação de Documentos Jurídicos em Português

dc.contributor.advisor-co1	Oliveira, Sávio Salvarino Teles de
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/1905829499839846
dc.contributor.advisor1	Galvão Filho, Arlindo Rodrigues
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/7744765287200890
dc.contributor.referee1	Galvão Filho, Arlindo Rodrigues
dc.contributor.referee2	Oliveira, Sávio Salvarino Teles de
dc.contributor.referee3	Fanucchi , Rodrigo Zempulski
dc.contributor.referee4	Soares, Anderson da Silva
dc.creator	Santos, Willgnner Ferreira
dc.creator.Lattes	http://lattes.cnpq.br/3203020327904139
dc.date.accessioned	2025-01-15T15:21:04Z
dc.date.available	2025-01-15T15:21:04Z
dc.date.issued	2024-11-26
dc.description.abstract	The increasing procedural demand in judicial institutions has caused a workload overload, impacting the efficiency of the legal system. This scenario, exacerbated by limited human resources, highlights the need for technological solutions to streamline the processing and analysis of documents. In light of this reality, this work proposes a pipeline for automating the classification of these documents, evaluating four methods of representing legal texts at the pipeline’s input: original text, summaries, centroids, and document descriptions. The pipeline was developed and tested at the Public Defender’s Office of the State of Goiás (DPE-GO). Each approach implements a specific strategy to structure the input texts, aiming to enhance the models’ ability to interpret and classify legal documents. A new Portuguese dataset was introduced, specifically designed for this application, and the performance of Large Language Models (LLMs) was evaluated in classification tasks. The analysis results demonstrate that the use of summaries improves classification accuracy and maximizes the F1-score, optimizing the use of LLMs by reducing the number of tokens processed without compromising precision. These findings highlight the impact of textual representations of documents and the potential of LLMs for the automatic classification of legal documents, as in the case of DPE-GO. The contributions of this work indicate that the application of LLMs, combined with optimized textual representations, can significantly increase the productivity and quality of services provided by judicial institutions, promoting advancements in the overall efficiency of the legal system.	eng
dc.description.resumo	A crescente demanda processual nas instituições jurídicas tem gerado sobrecarga de trabalho, impactando a eficiência do sistema jurídico. Esse cenário, agravado pela limitação de recursos humanos, ressalta a necessidade de soluções tecnológicas que agilizem o processamento e a análise de documentos. Diante dessa realidade, este trabalho propõe um pipeline para a automatização da classificação desses documentos, avaliando quatro métodos de representação de textos jurídicos na entrada do pipeline: texto original, resumos, centroides e descrições dos documentos. O pipeline foi desenvolvido e testado na Defensoria Pública do Estado de Goiás (DPE-GO). Cada abordagem implementa uma estratégia específica para estruturar os textos de entrada, com o objetivo de aprimorar a capacidade dos modelos de interpretar e classificar documentos jurídicos. Foi introduzido um novo conjunto de dados em português, elaborado para essa aplicação, e o desempenho de Grandes Modelos de Linguagem (LLMs) foi avaliado em tarefas de classificação. Os resultados da análise demonstram que o uso de resumos melhora a acurácia da classificação e maximiza o F1-score, otimizando o uso de LLMs ao reduzir a quantidade de tokens processados, sem comprometer a precisão. Esses resultados evidenciam o impacto das representações textuais dos documentos e o potencial dos LLMs na classificação automática de documentos jurídicos, como no caso da DPE-GO. As contribuições deste trabalho apontam que a aplicação de LLMs, combinada com representações textuais otimizadas, pode aumentar a produtividade e a qualidade dos serviços prestados pelas instituições jurídicas, promovendo avanços na eficiência do sistema jurídico como um todo.
dc.identifier.citation	SANTOS, W. F. Avaliação de Grandes Modelos de Linguagem para Classificação de Documentos Jurídicos em Português.2024. 102p. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.
dc.identifier.uri	http://repositorio.bc.ufg.br/tede/handle/tede/13784
dc.language	por
dc.publisher	Universidade Federal de Goiás
dc.publisher.country	Brasil
dc.publisher.department	Instituto de Informática - INF (RMG)
dc.publisher.initials	UFG
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação (INF)
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Grandes modelos de linguagem	por
dc.subject	Classificação de documentos jurídicos	por
dc.subject	Processamento de linguagem natural	por
dc.subject	Large language models	eng
dc.subject	Legal document classification	eng
dc.subject	Natural language processing	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.title	Avaliação de Grandes Modelos de Linguagem para Classificação de Documentos Jurídicos em Português
dc.title.alternative	Evaluation of Large Language Models for Legal Document Classification in Portuguese	eng
dc.type	Dissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Dissertação - Willgnner Ferreira Santos - 2024.pdf
Tamanho:: 1.33 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Mestrado em Ciência da Computação (INF)