Avaliação de Grandes Modelos de Linguagem para Classificação de Documentos Jurídicos em Português

dc.contributor.advisor-co1Oliveira, Sávio Salvarino Teles de
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/1905829499839846
dc.contributor.advisor1Galvão Filho, Arlindo Rodrigues
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7744765287200890
dc.contributor.referee1Galvão Filho, Arlindo Rodrigues
dc.contributor.referee2Oliveira, Sávio Salvarino Teles de
dc.contributor.referee3Fanucchi , Rodrigo Zempulski
dc.contributor.referee4Soares, Anderson da Silva
dc.creatorSantos, Willgnner Ferreira
dc.creator.Latteshttp://lattes.cnpq.br/3203020327904139
dc.date.accessioned2025-01-15T15:21:04Z
dc.date.available2025-01-15T15:21:04Z
dc.date.issued2024-11-26
dc.description.abstractThe increasing procedural demand in judicial institutions has caused a workload overload, impacting the efficiency of the legal system. This scenario, exacerbated by limited human resources, highlights the need for technological solutions to streamline the processing and analysis of documents. In light of this reality, this work proposes a pipeline for automating the classification of these documents, evaluating four methods of representing legal texts at the pipeline’s input: original text, summaries, centroids, and document descriptions. The pipeline was developed and tested at the Public Defender’s Office of the State of Goiás (DPE-GO). Each approach implements a specific strategy to structure the input texts, aiming to enhance the models’ ability to interpret and classify legal documents. A new Portuguese dataset was introduced, specifically designed for this application, and the performance of Large Language Models (LLMs) was evaluated in classification tasks. The analysis results demonstrate that the use of summaries improves classification accuracy and maximizes the F1-score, optimizing the use of LLMs by reducing the number of tokens processed without compromising precision. These findings highlight the impact of textual representations of documents and the potential of LLMs for the automatic classification of legal documents, as in the case of DPE-GO. The contributions of this work indicate that the application of LLMs, combined with optimized textual representations, can significantly increase the productivity and quality of services provided by judicial institutions, promoting advancements in the overall efficiency of the legal system.eng
dc.description.resumoA crescente demanda processual nas instituições jurídicas tem gerado sobrecarga de trabalho, impactando a eficiência do sistema jurídico. Esse cenário, agravado pela limitação de recursos humanos, ressalta a necessidade de soluções tecnológicas que agilizem o processamento e a análise de documentos. Diante dessa realidade, este trabalho propõe um pipeline para a automatização da classificação desses documentos, avaliando quatro métodos de representação de textos jurídicos na entrada do pipeline: texto original, resumos, centroides e descrições dos documentos. O pipeline foi desenvolvido e testado na Defensoria Pública do Estado de Goiás (DPE-GO). Cada abordagem implementa uma estratégia específica para estruturar os textos de entrada, com o objetivo de aprimorar a capacidade dos modelos de interpretar e classificar documentos jurídicos. Foi introduzido um novo conjunto de dados em português, elaborado para essa aplicação, e o desempenho de Grandes Modelos de Linguagem (LLMs) foi avaliado em tarefas de classificação. Os resultados da análise demonstram que o uso de resumos melhora a acurácia da classificação e maximiza o F1-score, otimizando o uso de LLMs ao reduzir a quantidade de tokens processados, sem comprometer a precisão. Esses resultados evidenciam o impacto das representações textuais dos documentos e o potencial dos LLMs na classificação automática de documentos jurídicos, como no caso da DPE-GO. As contribuições deste trabalho apontam que a aplicação de LLMs, combinada com representações textuais otimizadas, pode aumentar a produtividade e a qualidade dos serviços prestados pelas instituições jurídicas, promovendo avanços na eficiência do sistema jurídico como um todo.
dc.identifier.citationSANTOS, W. F. Avaliação de Grandes Modelos de Linguagem para Classificação de Documentos Jurídicos em Português.2024. 102p. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/13784
dc.languagepor
dc.publisherUniversidade Federal de Goiás
dc.publisher.countryBrasil
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.publisher.initialsUFG
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectGrandes modelos de linguagempor
dc.subjectClassificação de documentos jurídicospor
dc.subjectProcessamento de linguagem naturalpor
dc.subjectLarge language modelseng
dc.subjectLegal document classificationeng
dc.subjectNatural language processingeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleAvaliação de Grandes Modelos de Linguagem para Classificação de Documentos Jurídicos em Português
dc.title.alternativeEvaluation of Large Language Models for Legal Document Classification in Portugueseeng
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação - Willgnner Ferreira Santos - 2024.pdf
Tamanho:
1.33 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: