ARANDU: framework para geração aumentada por recuperação em grafos de conhecimento com fundamentação neuro-simbólica

dc.contributor.advisor1Soares, Anderson da Silva
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/1096941114079527
dc.contributor.referee1Soares, Anderson da Silva
dc.contributor.referee1Latteshttp://lattes.cnpq.br/1096941114079527
dc.contributor.referee2Bulcão Neto, Renato de Freitas
dc.contributor.referee2Latteshttp://lattes.cnpq.br/5627556088346425
dc.contributor.referee3Rosa, Thierson Couto
dc.contributor.referee3Latteshttp://lattes.cnpq.br/4414718560764818
dc.contributor.referee4Carvalho, Cedric Luiz de
dc.contributor.referee4Latteshttp://lattes.cnpq.br/4090131106212286
dc.contributor.referee5Costa, Gustavo de Assis
dc.contributor.referee5Latteshttp://lattes.cnpq.br/1543798708473666
dc.creatorXavier, Otávio Calaça
dc.creator.Latteshttp://lattes.cnpq.br/7603465099889835
dc.date.accessioned2025-12-15T17:52:49Z
dc.date.available2025-12-15T17:52:49Z
dc.date.issued2025-10-22
dc.description.abstractThis work addresses the challenge of Knowledge Graph Question Answering (KGQA), a field transformed by the rise of Large Language Models (LLMs) but still facing limitations such as the generation of factually inconsistent information (``hallucinations'') and difficulty in performing complex reasoning. The central objective of this research was to develop and validate a neuro-symbolic architecture that overcomes the limitations of contemporary Retrieval-Augmented Generation (RAG) systems, aiming to integrally solve the challenges of (1) retrieving evidence with low precision and recall, (2) loss of structural context in communication with the LLM, and (3) the absence of explicit logical orchestration in the reasoning process. To this end, the ARANDU framework was designed, implemented, and made available as open source, materializing the proposed architecture. The methodology is divided into an offline preparation stage, where hybrid indexes (lexical and semantic) are created and logical rules are mined from the graph, and an online execution pipeline with three phases: I) Hybrid Evidence Retrieval, which extracts a cohesive subgraph by combining lexical, semantic, and graph-based structured retrieval; II) Logical Context Orchestration, which enriches the subgraph with logical rules and weights the most relevant inference paths; and III) Neural Representation and Generation, where a Graph Neural Network (GNN) encodes the subgraph into a vector representation (graph token) that, along with the textual context, conditions a compact LLM to generate the final answer. The empirical validation, conducted on the WebQSP and MetaQA datasets and compared with baselines such as NaiveRAG, GraphRAG, and G-Retriever, showed that ARANDU achieved superior performance in most scenarios, especially in multi-hop reasoning tasks, with significant improvements in ranking quality metrics like nDCG@10 and MRR. The results also confirmed that neural representation via GNN is more effective than textual linearization and that the architecture is computationally efficient. The research concludes that the synergy between optimized retrieval, logical orchestration, and neural representation, as implemented in ARANDU, constitutes a robust and effective solution that increases the fidelity and precision of answers in KGQA systems, thus validating the central hypothesis of this work.eng
dc.description.resumoEste trabalho aborda o desafio de Resposta a Perguntas sobre Grafos de Conhecimento (KGQA), um campo transformado pela ascensão dos Grandes Modelos de Linguagem (LLMs), mas que ainda enfrenta limitações como a geração de informações factualmente inconsistentes (``alucinações'') e a dificuldade em realizar raciocínios complexos. O objetivo central da pesquisa foi desenvolver e validar uma arquitetura neuro-simbólica que mitigasse as limitações de sistemas de Geração Aumentada por Recuperação (RAG) contemporâneos, propondo-se a resolver de forma integrada os desafios de (1) recuperação de evidências com baixa precisão e cobertura, (2) perda de contexto estrutural na comunicação com o LLM, e (3) ausência de orquestração lógica explícita no processo de raciocínio. Para isso, foi projetado, implementado e disponibilizado como código aberto o framework ARANDU, que materializa a arquitetura proposta. A metodologia se divide em uma etapa de preparação offline, onde são criados índices híbridos (lexical e semântico) e mineradas regras lógicas a partir do grafo, e um pipeline de execução online em três fases: I) Recuperação Híbrida de Evidências, que extrai um subgrafo coeso combinando recuperação lexical, semântica e estruturada em grafo; II) Orquestração Lógica do Contexto, que enriquece o subgrafo com as regras lógicas e pondera os caminhos de inferência mais relevantes; e III) Representação Neural e Geração, onde uma Rede Neural em Grafo (GNN) codifica o subgrafo em uma representação vetorial (graph token) que, junto ao contexto textual, condiciona um LLM compacto a gerar a resposta final. A validação empírica, conduzida nos datasets WebQSP e MetaQA e comparada com baselines como NaiveRAG, GraphRAG e G-Retriever, demonstrou que o ARANDU obteve desempenho superior na maioria dos cenários, especialmente em tarefas de raciocínio multisalto, com melhorias significativas em métricas de qualidade de ranqueamento, como nDCG@10 e MRR. Os resultados também confirmaram que a representação neural via GNN é mais eficaz que a linearização textual e que a arquitetura se mostra computacionalmente eficiente. A pesquisa conclui que a sinergia entre recuperação otimizada, orquestração lógica e representação neural, como implementada no ARANDU, constitui uma solução robusta e eficaz que aumenta a fidelidade e a precisão das respostas em sistemas KGQA, validando a hipótese central do trabalho.
dc.identifier.citationXAVIER, O. C. ARANDU: framework para geração aumentada por recuperação em grafos de conhecimento com fundamentação neuro-simbólica. 2025. 192 f. Tese (Doutorado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025.
dc.identifier.urihttps://repositorio.bc.ufg.br/tede/handle/tede/14968
dc.languagePortuguêspor
dc.publisherUniversidade Federal de Goiáspor
dc.publisher.countryBrasilpor
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.publisher.initialsUFGpor
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectGeração aumentada por recuperação (RAG)por
dc.subjectLLMpor
dc.subjectGrafos de conhecimentopor
dc.subjectIA neuro-simbólicapor
dc.subjectResposta a perguntaspor
dc.subjectOrquestração lógicapor
dc.subjectRetrieval-augmented generation (RAG)eng
dc.subjectKnowledge graphseng
dc.subjectNeuro-symbolic AIeng
dc.subjectQuestion answering (QA)eng
dc.subjectLogical orchestrationeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleARANDU: framework para geração aumentada por recuperação em grafos de conhecimento com fundamentação neuro-simbólica
dc.title.alternativeARANDU: framework for retrieval-augmented generation on knowledge graphs with neuro-symbolic foundationseng
dc.typeTese

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Tese - Otávio Calaça Xavier - 2025.pdf
Tamanho:
2.61 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: