Avaliação de Grandes Modelos de Linguagem para Classificação de Documentos Jurídicos em Português
| dc.contributor.advisor-co1 | Oliveira, Sávio Salvarino Teles de | |
| dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/1905829499839846 | |
| dc.contributor.advisor1 | Galvão Filho, Arlindo Rodrigues | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/7744765287200890 | |
| dc.contributor.referee1 | Galvão Filho, Arlindo Rodrigues | |
| dc.contributor.referee2 | Oliveira, Sávio Salvarino Teles de | |
| dc.contributor.referee3 | Fanucchi , Rodrigo Zempulski | |
| dc.contributor.referee4 | Soares, Anderson da Silva | |
| dc.creator | Santos, Willgnner Ferreira | |
| dc.creator.Lattes | http://lattes.cnpq.br/3203020327904139 | |
| dc.date.accessioned | 2025-01-15T15:21:04Z | |
| dc.date.available | 2025-01-15T15:21:04Z | |
| dc.date.issued | 2024-11-26 | |
| dc.description.abstract | The increasing procedural demand in judicial institutions has caused a workload overload, impacting the efficiency of the legal system. This scenario, exacerbated by limited human resources, highlights the need for technological solutions to streamline the processing and analysis of documents. In light of this reality, this work proposes a pipeline for automating the classification of these documents, evaluating four methods of representing legal texts at the pipeline’s input: original text, summaries, centroids, and document descriptions. The pipeline was developed and tested at the Public Defender’s Office of the State of Goiás (DPE-GO). Each approach implements a specific strategy to structure the input texts, aiming to enhance the models’ ability to interpret and classify legal documents. A new Portuguese dataset was introduced, specifically designed for this application, and the performance of Large Language Models (LLMs) was evaluated in classification tasks. The analysis results demonstrate that the use of summaries improves classification accuracy and maximizes the F1-score, optimizing the use of LLMs by reducing the number of tokens processed without compromising precision. These findings highlight the impact of textual representations of documents and the potential of LLMs for the automatic classification of legal documents, as in the case of DPE-GO. The contributions of this work indicate that the application of LLMs, combined with optimized textual representations, can significantly increase the productivity and quality of services provided by judicial institutions, promoting advancements in the overall efficiency of the legal system. | eng |
| dc.description.resumo | A crescente demanda processual nas instituições jurídicas tem gerado sobrecarga de trabalho, impactando a eficiência do sistema jurídico. Esse cenário, agravado pela limitação de recursos humanos, ressalta a necessidade de soluções tecnológicas que agilizem o processamento e a análise de documentos. Diante dessa realidade, este trabalho propõe um pipeline para a automatização da classificação desses documentos, avaliando quatro métodos de representação de textos jurídicos na entrada do pipeline: texto original, resumos, centroides e descrições dos documentos. O pipeline foi desenvolvido e testado na Defensoria Pública do Estado de Goiás (DPE-GO). Cada abordagem implementa uma estratégia específica para estruturar os textos de entrada, com o objetivo de aprimorar a capacidade dos modelos de interpretar e classificar documentos jurídicos. Foi introduzido um novo conjunto de dados em português, elaborado para essa aplicação, e o desempenho de Grandes Modelos de Linguagem (LLMs) foi avaliado em tarefas de classificação. Os resultados da análise demonstram que o uso de resumos melhora a acurácia da classificação e maximiza o F1-score, otimizando o uso de LLMs ao reduzir a quantidade de tokens processados, sem comprometer a precisão. Esses resultados evidenciam o impacto das representações textuais dos documentos e o potencial dos LLMs na classificação automática de documentos jurídicos, como no caso da DPE-GO. As contribuições deste trabalho apontam que a aplicação de LLMs, combinada com representações textuais otimizadas, pode aumentar a produtividade e a qualidade dos serviços prestados pelas instituições jurídicas, promovendo avanços na eficiência do sistema jurídico como um todo. | |
| dc.identifier.citation | SANTOS, W. F. Avaliação de Grandes Modelos de Linguagem para Classificação de Documentos Jurídicos em Português.2024. 102p. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024. | |
| dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/13784 | |
| dc.language | por | |
| dc.publisher | Universidade Federal de Goiás | |
| dc.publisher.country | Brasil | |
| dc.publisher.department | Instituto de Informática - INF (RMG) | |
| dc.publisher.initials | UFG | |
| dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | |
| dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | en |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Grandes modelos de linguagem | por |
| dc.subject | Classificação de documentos jurídicos | por |
| dc.subject | Processamento de linguagem natural | por |
| dc.subject | Large language models | eng |
| dc.subject | Legal document classification | eng |
| dc.subject | Natural language processing | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
| dc.title | Avaliação de Grandes Modelos de Linguagem para Classificação de Documentos Jurídicos em Português | |
| dc.title.alternative | Evaluation of Large Language Models for Legal Document Classification in Portuguese | eng |
| dc.type | Dissertação |