Reconhecimento de entidades nomeadas em editais de licitação
dc.contributor.advisor1 | Silva, Nádia Félix Felipe da | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/7864834001694765 | |
dc.contributor.referee1 | Silva, Nádia Félix Felipe da | |
dc.contributor.referee2 | Fernandes, Deborah Silva Alves | |
dc.contributor.referee3 | Souza, Ellen Polliana Ramos | |
dc.creator | Souza Filho, Ricardo Pereira de | |
dc.creator.Lattes | http://lattes.cnpq.br/6591002408134638 | |
dc.date.accessioned | 2025-03-18T20:47:23Z | |
dc.date.available | 2025-03-18T20:47:23Z | |
dc.date.issued | 2024-11-29 | |
dc.description.abstract | This work explores the use of large language models (LLMs) for information extraction in public procurement notices, focusing on the Named Entity Recognition (NER) task. Given the diverse and unstandardized nature of these documents, the study proposes a methodology that integrates semantic selection techniques with Zero-Shot and Few-Shot scenarios, aiming to optimize the annotation and entity extraction process, reduce manual intervention, and improve accuracy. The first step involved building an annotated corpus containing named entities from pro-curement notices. Subsequently, the BERTimbau, BERTikal, and mDeBERTa models were trained in a supervised manner using this annotated dataset. Experiments showed that BERTimbau achieved the best overall performance, with an F1-score above 0.80. In the Zero-Shot and Few-Shot scenarios, various prompt templates and example selection strategies were tested. Models such as GPT-4 and LLaMA achieved performance compa-rable to supervised models when aided by semantically relevant examples, despite modest results in the absence of examples. The results indicate that combining enriched prompts with examples and the pre-selection of relevant sentences during the annotation phase contributes to greater accuracy and efficiency in the NER process for procurement notices. The proposed methodology can be applied to information extraction, with potential impacts on transparency and auditing in public procurement. | eng |
dc.description.resumo | Este trabalho explora o uso de modelos de linguagem natural (LLMs) para extração de informações em editais de licitação, focando na tarefa de Reconhecimento de Entidades Nomeadas (REN). Dada a natureza diversa e não padronizada dos editais, o trabalho propõe uma metodologia que integra técnicas de seleção semântica e cenários de Zero-Shot e Few-Shot, com o objetivo de otimizar o processo de anotação e extração de entidades, reduzindo a necessidade de intervenção manual e melhorando a precisão. O primeiro passo foi a construção de um corpus anotado com entidades nomeadas em editais de licitação. Em seguida, os modelos BERTimbau, BERTikal e mDeBERTa foram treinados supervisionadamente neste conjunto de dados anotado. Os experimentos mostraram que o BERTimbau apresentou melhor desempenho geral, alcançando valores acima de 0.80 para a métrica de avaliação F1-score. Nos cenários Zero-Shot e Few-Shot, diferentes templates de prompt e estratégias de seleção de exemplos foram testados. Modelos como GPT-4 e LLaMA obtiveram desempenho equivalente aos modelos que passaram por treinamento supervisionado com o auxílio de exemplos semanticamente relevantes, apesar de resultados modestos no cenário sem exemplos. Os resultados indicam que a combinação de prompts enriquecidos com exemplos e a pré-seleção de sentenças relevantes na etapa de anotação contribui para maior precisão e eficiência do processo de REN em editais de licitação. A metodologia apresentada pode ser aplicada para extração de informações, com potencial impacto na transparência e auditoria de licitações públicas. | |
dc.description.sponsorship | Fundação de Amparo à Pesquisa do Estado de Goiás | |
dc.identifier.citation | SOUZA FILHO, R. P. Reconhecimento de entidades nomeadas em editais de licitação. 2024. 63 f. Dissertação (Mestrado em Ciência da Computação) – Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024. | |
dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/13964 | |
dc.language | por | |
dc.publisher | Universidade Federal de Goiás | |
dc.publisher.country | Brasil | |
dc.publisher.department | Instituto de Informática - INF (RMG) | |
dc.publisher.initials | UFG | |
dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | |
dc.rights | Acesso Aberto | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Processamento de Linguagem Natural | por |
dc.subject | Reconhecimento de Entidades Nomeadas | por |
dc.subject | Editais de Licitação | por |
dc.subject | Natural Language Processing | eng |
dc.subject | Named Entity Recognition | eng |
dc.subject | Procurement Notices | eng |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
dc.title | Reconhecimento de entidades nomeadas em editais de licitação | |
dc.title.alternative | Named Entity Recognition in Bidding Notices | eng |
dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Dissertação - Ricardo Pereira de Souza Filho - 2024.pdf
- Tamanho:
- 10.87 MB
- Formato:
- Adobe Portable Document Format
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: