Verificação semi-automática de fatos em português: enriquecimento de corpus via busca e extração de alegação

dc.contributor.advisor1Galvão Filho, Arlindo Rodrigues
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7744765287200890
dc.contributor.referee1Galvão Filho, Arlindo Rodrigues
dc.contributor.referee1Latteshttp://lattes.cnpq.br/7744765287200890
dc.contributor.referee2Lima, Eliomar Araújo de
dc.contributor.referee2Latteshttp://lattes.cnpq.br/1362170231777201
dc.contributor.referee3Soares, Telma de Woerle de Lima
dc.contributor.referee3Latteshttp://lattes.cnpq.br/6296363436468330
dc.creatorGomes, Juliana Resplande Sant'Anna
dc.creator.Latteshttp://lattes.cnpq.br/8371673469920717
dc.date.accessioned2025-09-17T19:41:57Z
dc.date.available2025-09-17T19:41:57Z
dc.date.issued2025-06-10
dc.description.abstractThe accelerated dissemination of disinformation often outpaces the capacity for manual fact-checking, highlighting the urgent need for Semi-Automated Fact-Checking (SAFC) systems. Within the Portuguese language context, there is a noted scarcity of publicly available datasets (corpora) that integrate external evidence, an essential component for developing robust AFC systems, as many existing resources focus solely on classification based on intrinsic text features. This dissertation addresses this gap by developing, applying, and analyzing a methodology to enrich Portuguese news corpora (Fake.Br, COVID19.BR, MuMiN-PT) with external evidence. The approach simulates a user’s verification process, employing Large Language Models (LLMs, specifically Gemini 1.5 Flash) to extract the main claim from texts and search engine APIs (Google Search API, Google FactCheck Claims Search API) to retrieve relevant external documents (evidence). Additionally, a data validation and preprocessing framework, including near-duplicate detection, is introduced to enhance the quality of the base corpora. The main results demonstrate the methodology’s viability, providing enriched corpora and analyses that confirm the utility of claim extraction, the influence of original data characteristics on the process, and the positive impact of enrichment on the performance of classification models (Bertimbau and Gemini 1.5 Flash), especially with fine-tuning. This work contributes valuable resources and insights for advancing SAFC in Portuguese.eng
dc.description.resumoA disseminação acelerada de desinformação excede a capacidade da verificação manual de fatos, evidenciando a necessidade de sistemas de Verificação Semi-Automática de Fatos (AFC). No contexto da língua portuguesa, constata-se uma carência de conjuntos de dados (corpora) publicamente disponíveis que integrem evidências externas, um componente essencial para o desenvolvimento de sistemas robustos de AFC, uma vez que muitos recursos existentes focam apenas na classificação baseada em características intrínsecas do texto. Esta dissertação aborda essa lacuna desenvolvendo, aplicando e analisando uma metodologia para enriquecer corpora de notícias em português (Fake.Br, COVID19.BR, MuMiNPT) com evidências externas. A abordagem simula o processo de verificação de um usuário, empregando Modelos de Linguagem Grandes (LLMs, especificamente Gemini 1.5 Flash) para extrair a alegação principal dos textos e APIs de mecanismos de busca (API de busca do Google, API de busca de alegações do Google FactCheck) para recuperar documentos externos relevantes (evidências). Adicionalmente, um processo de validação e pré-processamento de dados, incluindo detecção de quase duplicatas, é introduzido para aprimorar a qualidade dos corpora base. Os principais resultados demonstram a viabilidade da metodologia, fornecendo corpora enriquecidos e análises que confirmam a utilidade da extração de alegações, a influência das características dos dados originais no processo, e o impacto positivo do enriquecimento no desempenho de modelos de classificação (Bertimbau e Gemini 1.5 Flash), especialmente com ajuste fino. Este trabalho contribui com recursos valiosos e insights para o avanço da AFC em português.
dc.description.sponsorshipOutro
dc.identifier.citationGOMES, J. R. S. Verificação semi-automática de fatos em português: enriquecimento de corpus via busca e extração de alegação. 2025. 119 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025.
dc.identifier.urihttps://repositorio.bc.ufg.br/tede/handle/tede/14696
dc.languagePortuguêspor
dc.publisherUniversidade Federal de Goiáspor
dc.publisher.countryBrasilpor
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.publisher.initialsUFGpor
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectProcessamento de linguagem naturalpor
dc.subjectFake Newspor
dc.subjectVerificação semi-automática defFatospor
dc.subjectCorpora em portuguêspor
dc.subjectNatural languagep processingeng
dc.subjectSemi-automated fact-checkingeng
dc.subjectPortuguese corporaeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleVerificação semi-automática de fatos em português: enriquecimento de corpus via busca e extração de alegação
dc.title.alternativeSemi-automated fact-checking in portuguese: corpora enrichment using retrieval with claim extractioneng
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação - Juliana Resplande Sant'Anna Gomes - 2025.pdf
Tamanho:
3.29 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: