Reconhecimento de entidades nomeadas em editais de licitação

dc.contributor.advisor1Silva, Nádia Félix Felipe da
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7864834001694765
dc.contributor.referee1Silva, Nádia Félix Felipe da
dc.contributor.referee2Fernandes, Deborah Silva Alves
dc.contributor.referee3Souza, Ellen Polliana Ramos
dc.creatorSouza Filho, Ricardo Pereira de
dc.creator.Latteshttp://lattes.cnpq.br/6591002408134638
dc.date.accessioned2025-03-18T20:47:23Z
dc.date.available2025-03-18T20:47:23Z
dc.date.issued2024-11-29
dc.description.abstractThis work explores the use of large language models (LLMs) for information extraction in public procurement notices, focusing on the Named Entity Recognition (NER) task. Given the diverse and unstandardized nature of these documents, the study proposes a methodology that integrates semantic selection techniques with Zero-Shot and Few-Shot scenarios, aiming to optimize the annotation and entity extraction process, reduce manual intervention, and improve accuracy. The first step involved building an annotated corpus containing named entities from pro-curement notices. Subsequently, the BERTimbau, BERTikal, and mDeBERTa models were trained in a supervised manner using this annotated dataset. Experiments showed that BERTimbau achieved the best overall performance, with an F1-score above 0.80. In the Zero-Shot and Few-Shot scenarios, various prompt templates and example selection strategies were tested. Models such as GPT-4 and LLaMA achieved performance compa-rable to supervised models when aided by semantically relevant examples, despite modest results in the absence of examples. The results indicate that combining enriched prompts with examples and the pre-selection of relevant sentences during the annotation phase contributes to greater accuracy and efficiency in the NER process for procurement notices. The proposed methodology can be applied to information extraction, with potential impacts on transparency and auditing in public procurement.eng
dc.description.resumoEste trabalho explora o uso de modelos de linguagem natural (LLMs) para extração de informações em editais de licitação, focando na tarefa de Reconhecimento de Entidades Nomeadas (REN). Dada a natureza diversa e não padronizada dos editais, o trabalho propõe uma metodologia que integra técnicas de seleção semântica e cenários de Zero-Shot e Few-Shot, com o objetivo de otimizar o processo de anotação e extração de entidades, reduzindo a necessidade de intervenção manual e melhorando a precisão. O primeiro passo foi a construção de um corpus anotado com entidades nomeadas em editais de licitação. Em seguida, os modelos BERTimbau, BERTikal e mDeBERTa foram treinados supervisionadamente neste conjunto de dados anotado. Os experimentos mostraram que o BERTimbau apresentou melhor desempenho geral, alcançando valores acima de 0.80 para a métrica de avaliação F1-score. Nos cenários Zero-Shot e Few-Shot, diferentes templates de prompt e estratégias de seleção de exemplos foram testados. Modelos como GPT-4 e LLaMA obtiveram desempenho equivalente aos modelos que passaram por treinamento supervisionado com o auxílio de exemplos semanticamente relevantes, apesar de resultados modestos no cenário sem exemplos. Os resultados indicam que a combinação de prompts enriquecidos com exemplos e a pré-seleção de sentenças relevantes na etapa de anotação contribui para maior precisão e eficiência do processo de REN em editais de licitação. A metodologia apresentada pode ser aplicada para extração de informações, com potencial impacto na transparência e auditoria de licitações públicas.
dc.description.sponsorshipFundação de Amparo à Pesquisa do Estado de Goiás
dc.identifier.citationSOUZA FILHO, R. P. Reconhecimento de entidades nomeadas em editais de licitação. 2024. 63 f. Dissertação (Mestrado em Ciência da Computação) – Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2024.
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/13964
dc.languagepor
dc.publisherUniversidade Federal de Goiás
dc.publisher.countryBrasil
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.publisher.initialsUFG
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectProcessamento de Linguagem Naturalpor
dc.subjectReconhecimento de Entidades Nomeadaspor
dc.subjectEditais de Licitaçãopor
dc.subjectNatural Language Processingeng
dc.subjectNamed Entity Recognitioneng
dc.subjectProcurement Noticeseng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleReconhecimento de entidades nomeadas em editais de licitação
dc.title.alternativeNamed Entity Recognition in Bidding Noticeseng
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação - Ricardo Pereira de Souza Filho - 2024.pdf
Tamanho:
10.87 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: