ARANDU: framework para geração aumentada por recuperação em grafos de conhecimento com fundamentação neuro-simbólica
| dc.contributor.advisor1 | Soares, Anderson da Silva | |
| dc.contributor.advisor1Lattes | http://lattes.cnpq.br/1096941114079527 | |
| dc.contributor.referee1 | Soares, Anderson da Silva | |
| dc.contributor.referee1Lattes | http://lattes.cnpq.br/1096941114079527 | |
| dc.contributor.referee2 | Bulcão Neto, Renato de Freitas | |
| dc.contributor.referee2Lattes | http://lattes.cnpq.br/5627556088346425 | |
| dc.contributor.referee3 | Rosa, Thierson Couto | |
| dc.contributor.referee3Lattes | http://lattes.cnpq.br/4414718560764818 | |
| dc.contributor.referee4 | Carvalho, Cedric Luiz de | |
| dc.contributor.referee4Lattes | http://lattes.cnpq.br/4090131106212286 | |
| dc.contributor.referee5 | Costa, Gustavo de Assis | |
| dc.contributor.referee5Lattes | http://lattes.cnpq.br/1543798708473666 | |
| dc.creator | Xavier, Otávio Calaça | |
| dc.creator.Lattes | http://lattes.cnpq.br/7603465099889835 | |
| dc.date.accessioned | 2025-12-15T17:52:49Z | |
| dc.date.available | 2025-12-15T17:52:49Z | |
| dc.date.issued | 2025-10-22 | |
| dc.description.abstract | This work addresses the challenge of Knowledge Graph Question Answering (KGQA), a field transformed by the rise of Large Language Models (LLMs) but still facing limitations such as the generation of factually inconsistent information (``hallucinations'') and difficulty in performing complex reasoning. The central objective of this research was to develop and validate a neuro-symbolic architecture that overcomes the limitations of contemporary Retrieval-Augmented Generation (RAG) systems, aiming to integrally solve the challenges of (1) retrieving evidence with low precision and recall, (2) loss of structural context in communication with the LLM, and (3) the absence of explicit logical orchestration in the reasoning process. To this end, the ARANDU framework was designed, implemented, and made available as open source, materializing the proposed architecture. The methodology is divided into an offline preparation stage, where hybrid indexes (lexical and semantic) are created and logical rules are mined from the graph, and an online execution pipeline with three phases: I) Hybrid Evidence Retrieval, which extracts a cohesive subgraph by combining lexical, semantic, and graph-based structured retrieval; II) Logical Context Orchestration, which enriches the subgraph with logical rules and weights the most relevant inference paths; and III) Neural Representation and Generation, where a Graph Neural Network (GNN) encodes the subgraph into a vector representation (graph token) that, along with the textual context, conditions a compact LLM to generate the final answer. The empirical validation, conducted on the WebQSP and MetaQA datasets and compared with baselines such as NaiveRAG, GraphRAG, and G-Retriever, showed that ARANDU achieved superior performance in most scenarios, especially in multi-hop reasoning tasks, with significant improvements in ranking quality metrics like nDCG@10 and MRR. The results also confirmed that neural representation via GNN is more effective than textual linearization and that the architecture is computationally efficient. The research concludes that the synergy between optimized retrieval, logical orchestration, and neural representation, as implemented in ARANDU, constitutes a robust and effective solution that increases the fidelity and precision of answers in KGQA systems, thus validating the central hypothesis of this work. | eng |
| dc.description.resumo | Este trabalho aborda o desafio de Resposta a Perguntas sobre Grafos de Conhecimento (KGQA), um campo transformado pela ascensão dos Grandes Modelos de Linguagem (LLMs), mas que ainda enfrenta limitações como a geração de informações factualmente inconsistentes (``alucinações'') e a dificuldade em realizar raciocínios complexos. O objetivo central da pesquisa foi desenvolver e validar uma arquitetura neuro-simbólica que mitigasse as limitações de sistemas de Geração Aumentada por Recuperação (RAG) contemporâneos, propondo-se a resolver de forma integrada os desafios de (1) recuperação de evidências com baixa precisão e cobertura, (2) perda de contexto estrutural na comunicação com o LLM, e (3) ausência de orquestração lógica explícita no processo de raciocínio. Para isso, foi projetado, implementado e disponibilizado como código aberto o framework ARANDU, que materializa a arquitetura proposta. A metodologia se divide em uma etapa de preparação offline, onde são criados índices híbridos (lexical e semântico) e mineradas regras lógicas a partir do grafo, e um pipeline de execução online em três fases: I) Recuperação Híbrida de Evidências, que extrai um subgrafo coeso combinando recuperação lexical, semântica e estruturada em grafo; II) Orquestração Lógica do Contexto, que enriquece o subgrafo com as regras lógicas e pondera os caminhos de inferência mais relevantes; e III) Representação Neural e Geração, onde uma Rede Neural em Grafo (GNN) codifica o subgrafo em uma representação vetorial (graph token) que, junto ao contexto textual, condiciona um LLM compacto a gerar a resposta final. A validação empírica, conduzida nos datasets WebQSP e MetaQA e comparada com baselines como NaiveRAG, GraphRAG e G-Retriever, demonstrou que o ARANDU obteve desempenho superior na maioria dos cenários, especialmente em tarefas de raciocínio multisalto, com melhorias significativas em métricas de qualidade de ranqueamento, como nDCG@10 e MRR. Os resultados também confirmaram que a representação neural via GNN é mais eficaz que a linearização textual e que a arquitetura se mostra computacionalmente eficiente. A pesquisa conclui que a sinergia entre recuperação otimizada, orquestração lógica e representação neural, como implementada no ARANDU, constitui uma solução robusta e eficaz que aumenta a fidelidade e a precisão das respostas em sistemas KGQA, validando a hipótese central do trabalho. | |
| dc.identifier.citation | XAVIER, O. C. ARANDU: framework para geração aumentada por recuperação em grafos de conhecimento com fundamentação neuro-simbólica. 2025. 192 f. Tese (Doutorado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025. | |
| dc.identifier.uri | https://repositorio.bc.ufg.br/tede/handle/tede/14968 | |
| dc.language | Português | por |
| dc.publisher | Universidade Federal de Goiás | por |
| dc.publisher.country | Brasil | por |
| dc.publisher.department | Instituto de Informática - INF (RMG) | |
| dc.publisher.initials | UFG | por |
| dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | |
| dc.rights | Acesso Aberto | |
| dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
| dc.subject | Geração aumentada por recuperação (RAG) | por |
| dc.subject | LLM | por |
| dc.subject | Grafos de conhecimento | por |
| dc.subject | IA neuro-simbólica | por |
| dc.subject | Resposta a perguntas | por |
| dc.subject | Orquestração lógica | por |
| dc.subject | Retrieval-augmented generation (RAG) | eng |
| dc.subject | Knowledge graphs | eng |
| dc.subject | Neuro-symbolic AI | eng |
| dc.subject | Question answering (QA) | eng |
| dc.subject | Logical orchestration | eng |
| dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
| dc.title | ARANDU: framework para geração aumentada por recuperação em grafos de conhecimento com fundamentação neuro-simbólica | |
| dc.title.alternative | ARANDU: framework for retrieval-augmented generation on knowledge graphs with neuro-symbolic foundations | eng |
| dc.type | Tese |