Proposal and Evaluation of Efficient Pruning Approaches for Multi-Vector Representation in Passage Retrieval

Chihururu, Alex Michael

Proposal and Evaluation of Efficient Pruning Approaches for Multi-Vector Representation in Passage Retrieval

dc.contributor.advisor1	Rosa, Thierson Couto
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4414718560764818
dc.contributor.referee1	Rosa, Thierson Couto
dc.contributor.referee1Lattes	http://lattes.cnpq.br/4414718560764818
dc.contributor.referee2	Brandão, Wladmir Cardoso
dc.contributor.referee2Lattes	http://lattes.cnpq.br/4935788335854516
dc.contributor.referee3	Martins, Wellington Santos
dc.contributor.referee3Lattes	http://lattes.cnpq.br/3041686206689904
dc.creator	Chihururu, Alex Michael
dc.creator.Lattes	http://lattes.cnpq.br/5315631423669266
dc.date.accessioned	2025-08-11T19:09:03Z
dc.date.available	2025-08-11T19:09:03Z
dc.date.issued	2025-06-13
dc.description.abstract	Multi-vector retrieval models employ bi-encoders to generate contextualized embeddings for queries and passages, and have proven highly effective in capturing fine-grained token-level interactions. Models such as ColBERT, ColBERTv2, and PLAID leverage all token-level output vectors from the encoder to accurately model query-passage relationships. However, storing dense vectors for every token in each passage results in substantial mem-ory overhead. Additionally, query latency is significantly affected by the computational cost of computing inner products between each query token and all passage tokens to obtain similarity scores. In this work, we explore pruning techniques applied to passage vectors produced by PLAID, aiming to remove less important token vectors to improve memory efficiency and reduce query processing time, with minimal impact on retrieval effectiveness. We propose two novel pruning methods: MLM Max with Token Reordering (MMTR) and TF-IDF pruning. We conducted extensive experiments on both in-domain and zero-shot (out-of-domain) datasets, following best-practice evaluation protocols. Our results show that MMTR consistently yields the smallest effectiveness drop compared to the original, unpruned PLAID model. We observe that retaining 50% of the passage to-ken embeddings provides the best trade-off between effectiveness, index size, and latency across most datasets. Interestingly, on certain out-of-domain datasets, pruning acts as a form of noise reduction—where retaining only 25% of the token embeddings leads to improved retrieval performance over the full, unpruned index.	eng
dc.description.resumo	Modelos de recuperação multivetorial empregam codificadores duplos para gerar embeddings contextuais para consultas e passagens e têm se mostrado altamente efetivos na captura de interações ricas em nível de token. Modelos como ColBERT, ColBERTv2 e PLAID aproveitam todos os vetores de saída em nível de token do codificador para modelar com precisão as relações consulta-passagem. No entanto, armazenar vetores para cada token de passagem impõe requisitos significativos de memória de armazenamento. Além disso, a latência da consulta é fortemente impactada pelo custo computacional da execução de operações de produto interno entre cada embedding de token de consulta e todos os embeddings de token de passagem para calcular pontuações de similaridade agregadas. Neste trabalho, investiga-se técnicas de poda aplicadas a embeddings de passagens produzidos por PLAID, com o objetivo de remover embeddings de tokens menos importantes, a fim de aumentar a eficiência da memória e reduzir o tempo de processamento de consultas, ao custo de uma possível pequena queda na efetividade. Propo-se dois novos métodos de poda: MLM Max com Reordenação de Tokens (MMTR) e TF-IDF pruning. Realiza-se experimentos extensivos em conjuntos de dados dentro e fora do domínio, seguindo os protocolos de avaliação recomendados. Os resultados mostram que o MMTR atinge consistentemente a menor queda na efetividade em comparação com o modelo PLAID sem poda. Além disso, a retenção de 50% dos embeddings de tokens de passagem oferece a melhor solução de compromisso entre efetividade de recuperação, tamanho do índice e latência da consulta na maioria dos conjuntos de dados. No entanto, para certos conjuntos de dados fora do domínio, a poda também atua como uma forma de redução de ruído. Nesses casos, mesmo quando apenas 25% dos vetores do PLAID são retidos, o modelo podado supera o PLAID sem poda, em efetividade de recuperação.
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES
dc.description.sponsorship	Outro
dc.identifier.citation	CHIHURURU, A. M. Proposal and Evaluation of Efficient Pruning Approaches for Multi-Vector Representation in Passage Retrieval = Proposta e Avaliação de Abordagens Eficientes de Poda para Representações Multi-Vetoriais na Recuperação de Passagens. 2025. 125 f. Dissertação (Mestrado em Ciência da Computação) – Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025.
dc.identifier.uri	https://repositorio.bc.ufg.br/tede/handle/tede/14607
dc.language	eng
dc.publisher	Universidade Federal de Goiás	por
dc.publisher.country	Brasil	por
dc.publisher.department	Instituto de Informática - INF (RMG)
dc.publisher.initials	UFG	por
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação (INF)
dc.rights	Acesso Aberto
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Métodos de poda	por
dc.subject	Modelos de recuperação multi-vetoriais	por
dc.subject	Bi-codificadores	por
dc.subject	Recuperação de informação	por
dc.subject	Pruning methods	eng
dc.subject	Multi-vector retrieval models	eng
dc.subject	Bi-encoders	eng
dc.subject	Information re-trieval	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.title	Proposal and Evaluation of Efficient Pruning Approaches for Multi-Vector Representation in Passage Retrieval
dc.title.alternative	Proposta e Avaliação de Abordagens Eficientes de Poda para Representações Multi-Vetoriais na Recuperação de Passagens	por
dc.type	Dissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Dissertação - Alex Michael Chihururu - 2025.pdf
Tamanho:: 1.87 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Mestrado em Ciência da Computação (INF)