Proposal and Evaluation of Efficient Pruning Approaches for Multi-Vector Representation in Passage Retrieval

dc.contributor.advisor1Rosa, Thierson Couto
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4414718560764818
dc.contributor.referee1Rosa, Thierson Couto
dc.contributor.referee1Latteshttp://lattes.cnpq.br/4414718560764818
dc.contributor.referee2Brandão, Wladmir Cardoso
dc.contributor.referee2Latteshttp://lattes.cnpq.br/4935788335854516
dc.contributor.referee3Martins, Wellington Santos
dc.contributor.referee3Latteshttp://lattes.cnpq.br/3041686206689904
dc.creatorChihururu, Alex Michael
dc.creator.Latteshttp://lattes.cnpq.br/5315631423669266
dc.date.accessioned2025-08-11T19:09:03Z
dc.date.available2025-08-11T19:09:03Z
dc.date.issued2025-06-13
dc.description.abstractMulti-vector retrieval models employ bi-encoders to generate contextualized embeddings for queries and passages, and have proven highly effective in capturing fine-grained token-level interactions. Models such as ColBERT, ColBERTv2, and PLAID leverage all token-level output vectors from the encoder to accurately model query-passage relationships. However, storing dense vectors for every token in each passage results in substantial mem-ory overhead. Additionally, query latency is significantly affected by the computational cost of computing inner products between each query token and all passage tokens to obtain similarity scores. In this work, we explore pruning techniques applied to passage vectors produced by PLAID, aiming to remove less important token vectors to improve memory efficiency and reduce query processing time, with minimal impact on retrieval effectiveness. We propose two novel pruning methods: MLM Max with Token Reordering (MMTR) and TF-IDF pruning. We conducted extensive experiments on both in-domain and zero-shot (out-of-domain) datasets, following best-practice evaluation protocols. Our results show that MMTR consistently yields the smallest effectiveness drop compared to the original, unpruned PLAID model. We observe that retaining 50% of the passage to-ken embeddings provides the best trade-off between effectiveness, index size, and latency across most datasets. Interestingly, on certain out-of-domain datasets, pruning acts as a form of noise reduction—where retaining only 25% of the token embeddings leads to improved retrieval performance over the full, unpruned index.eng
dc.description.resumoModelos de recuperação multivetorial empregam codificadores duplos para gerar embeddings contextuais para consultas e passagens e têm se mostrado altamente efetivos na captura de interações ricas em nível de token. Modelos como ColBERT, ColBERTv2 e PLAID aproveitam todos os vetores de saída em nível de token do codificador para modelar com precisão as relações consulta-passagem. No entanto, armazenar vetores para cada token de passagem impõe requisitos significativos de memória de armazenamento. Além disso, a latência da consulta é fortemente impactada pelo custo computacional da execução de operações de produto interno entre cada embedding de token de consulta e todos os embeddings de token de passagem para calcular pontuações de similaridade agregadas. Neste trabalho, investiga-se técnicas de poda aplicadas a embeddings de passagens produzidos por PLAID, com o objetivo de remover embeddings de tokens menos importantes, a fim de aumentar a eficiência da memória e reduzir o tempo de processamento de consultas, ao custo de uma possível pequena queda na efetividade. Propo-se dois novos métodos de poda: MLM Max com Reordenação de Tokens (MMTR) e TF-IDF pruning. Realiza-se experimentos extensivos em conjuntos de dados dentro e fora do domínio, seguindo os protocolos de avaliação recomendados. Os resultados mostram que o MMTR atinge consistentemente a menor queda na efetividade em comparação com o modelo PLAID sem poda. Além disso, a retenção de 50% dos embeddings de tokens de passagem oferece a melhor solução de compromisso entre efetividade de recuperação, tamanho do índice e latência da consulta na maioria dos conjuntos de dados. No entanto, para certos conjuntos de dados fora do domínio, a poda também atua como uma forma de redução de ruído. Nesses casos, mesmo quando apenas 25% dos vetores do PLAID são retidos, o modelo podado supera o PLAID sem poda, em efetividade de recuperação.
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES
dc.description.sponsorshipOutro
dc.identifier.citationCHIHURURU, A. M. Proposal and Evaluation of Efficient Pruning Approaches for Multi-Vector Representation in Passage Retrieval = Proposta e Avaliação de Abordagens Eficientes de Poda para Representações Multi-Vetoriais na Recuperação de Passagens. 2025. 125 f. Dissertação (Mestrado em Ciência da Computação) – Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025.
dc.identifier.urihttps://repositorio.bc.ufg.br/tede/handle/tede/14607
dc.languageeng
dc.publisherUniversidade Federal de Goiáspor
dc.publisher.countryBrasilpor
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.publisher.initialsUFGpor
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectMétodos de podapor
dc.subjectModelos de recuperação multi-vetoriaispor
dc.subjectBi-codificadorespor
dc.subjectRecuperação de informaçãopor
dc.subjectPruning methodseng
dc.subjectMulti-vector retrieval modelseng
dc.subjectBi-encoderseng
dc.subjectInformation re-trievaleng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleProposal and Evaluation of Efficient Pruning Approaches for Multi-Vector Representation in Passage Retrieval
dc.title.alternativeProposta e Avaliação de Abordagens Eficientes de Poda para Representações Multi-Vetoriais na Recuperação de Passagenspor
dc.typeDissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
Dissertação - Alex Michael Chihururu - 2025.pdf
Tamanho:
1.87 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: