Verificação semi-automática de fatos em português: enriquecimento de corpus via busca e extração de alegação
dc.contributor.advisor1 | Galvão Filho, Arlindo Rodrigues | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/7744765287200890 | |
dc.contributor.referee1 | Galvão Filho, Arlindo Rodrigues | |
dc.contributor.referee1Lattes | http://lattes.cnpq.br/7744765287200890 | |
dc.contributor.referee2 | Lima, Eliomar Araújo de | |
dc.contributor.referee2Lattes | http://lattes.cnpq.br/1362170231777201 | |
dc.contributor.referee3 | Soares, Telma de Woerle de Lima | |
dc.contributor.referee3Lattes | http://lattes.cnpq.br/6296363436468330 | |
dc.creator | Gomes, Juliana Resplande Sant'Anna | |
dc.creator.Lattes | http://lattes.cnpq.br/8371673469920717 | |
dc.date.accessioned | 2025-09-17T19:41:57Z | |
dc.date.available | 2025-09-17T19:41:57Z | |
dc.date.issued | 2025-06-10 | |
dc.description.abstract | The accelerated dissemination of disinformation often outpaces the capacity for manual fact-checking, highlighting the urgent need for Semi-Automated Fact-Checking (SAFC) systems. Within the Portuguese language context, there is a noted scarcity of publicly available datasets (corpora) that integrate external evidence, an essential component for developing robust AFC systems, as many existing resources focus solely on classification based on intrinsic text features. This dissertation addresses this gap by developing, applying, and analyzing a methodology to enrich Portuguese news corpora (Fake.Br, COVID19.BR, MuMiN-PT) with external evidence. The approach simulates a user’s verification process, employing Large Language Models (LLMs, specifically Gemini 1.5 Flash) to extract the main claim from texts and search engine APIs (Google Search API, Google FactCheck Claims Search API) to retrieve relevant external documents (evidence). Additionally, a data validation and preprocessing framework, including near-duplicate detection, is introduced to enhance the quality of the base corpora. The main results demonstrate the methodology’s viability, providing enriched corpora and analyses that confirm the utility of claim extraction, the influence of original data characteristics on the process, and the positive impact of enrichment on the performance of classification models (Bertimbau and Gemini 1.5 Flash), especially with fine-tuning. This work contributes valuable resources and insights for advancing SAFC in Portuguese. | eng |
dc.description.resumo | A disseminação acelerada de desinformação excede a capacidade da verificação manual de fatos, evidenciando a necessidade de sistemas de Verificação Semi-Automática de Fatos (AFC). No contexto da língua portuguesa, constata-se uma carência de conjuntos de dados (corpora) publicamente disponíveis que integrem evidências externas, um componente essencial para o desenvolvimento de sistemas robustos de AFC, uma vez que muitos recursos existentes focam apenas na classificação baseada em características intrínsecas do texto. Esta dissertação aborda essa lacuna desenvolvendo, aplicando e analisando uma metodologia para enriquecer corpora de notícias em português (Fake.Br, COVID19.BR, MuMiNPT) com evidências externas. A abordagem simula o processo de verificação de um usuário, empregando Modelos de Linguagem Grandes (LLMs, especificamente Gemini 1.5 Flash) para extrair a alegação principal dos textos e APIs de mecanismos de busca (API de busca do Google, API de busca de alegações do Google FactCheck) para recuperar documentos externos relevantes (evidências). Adicionalmente, um processo de validação e pré-processamento de dados, incluindo detecção de quase duplicatas, é introduzido para aprimorar a qualidade dos corpora base. Os principais resultados demonstram a viabilidade da metodologia, fornecendo corpora enriquecidos e análises que confirmam a utilidade da extração de alegações, a influência das características dos dados originais no processo, e o impacto positivo do enriquecimento no desempenho de modelos de classificação (Bertimbau e Gemini 1.5 Flash), especialmente com ajuste fino. Este trabalho contribui com recursos valiosos e insights para o avanço da AFC em português. | |
dc.description.sponsorship | Outro | |
dc.identifier.citation | GOMES, J. R. S. Verificação semi-automática de fatos em português: enriquecimento de corpus via busca e extração de alegação. 2025. 119 f. Dissertação (Mestrado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025. | |
dc.identifier.uri | https://repositorio.bc.ufg.br/tede/handle/tede/14696 | |
dc.language | Português | por |
dc.publisher | Universidade Federal de Goiás | por |
dc.publisher.country | Brasil | por |
dc.publisher.department | Instituto de Informática - INF (RMG) | |
dc.publisher.initials | UFG | por |
dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | |
dc.rights | Acesso Aberto | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Processamento de linguagem natural | por |
dc.subject | Fake News | por |
dc.subject | Verificação semi-automática defFatos | por |
dc.subject | Corpora em português | por |
dc.subject | Natural languagep processing | eng |
dc.subject | Semi-automated fact-checking | eng |
dc.subject | Portuguese corpora | eng |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
dc.title | Verificação semi-automática de fatos em português: enriquecimento de corpus via busca e extração de alegação | |
dc.title.alternative | Semi-automated fact-checking in portuguese: corpora enrichment using retrieval with claim extraction | eng |
dc.type | Dissertação |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- Dissertação - Juliana Resplande Sant'Anna Gomes - 2025.pdf
- Tamanho:
- 3.29 MB
- Formato:
- Adobe Portable Document Format
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: