Proposal and Evaluation of Efficient Pruning Approaches for Multi-Vector Representation in Passage Retrieval
dc.contributor.advisor1 | Rosa, Thierson Couto | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/4414718560764818 | |
dc.contributor.referee1 | Rosa, Thierson Couto | |
dc.contributor.referee1Lattes | http://lattes.cnpq.br/4414718560764818 | |
dc.contributor.referee2 | Brandão, Wladmir Cardoso | |
dc.contributor.referee2Lattes | http://lattes.cnpq.br/4935788335854516 | |
dc.contributor.referee3 | Martins, Wellington Santos | |
dc.contributor.referee3Lattes | http://lattes.cnpq.br/3041686206689904 | |
dc.creator | Chihururu, Alex Michael | |
dc.creator.Lattes | http://lattes.cnpq.br/5315631423669266 | |
dc.date.accessioned | 2025-08-11T19:09:03Z | |
dc.date.available | 2025-08-11T19:09:03Z | |
dc.date.issued | 2025-06-13 | |
dc.description.abstract | Multi-vector retrieval models employ bi-encoders to generate contextualized embeddings for queries and passages, and have proven highly effective in capturing fine-grained token-level interactions. Models such as ColBERT, ColBERTv2, and PLAID leverage all token-level output vectors from the encoder to accurately model query-passage relationships. However, storing dense vectors for every token in each passage results in substantial mem-ory overhead. Additionally, query latency is significantly affected by the computational cost of computing inner products between each query token and all passage tokens to obtain similarity scores. In this work, we explore pruning techniques applied to passage vectors produced by PLAID, aiming to remove less important token vectors to improve memory efficiency and reduce query processing time, with minimal impact on retrieval effectiveness. We propose two novel pruning methods: MLM Max with Token Reordering (MMTR) and TF-IDF pruning. We conducted extensive experiments on both in-domain and zero-shot (out-of-domain) datasets, following best-practice evaluation protocols. Our results show that MMTR consistently yields the smallest effectiveness drop compared to the original, unpruned PLAID model. We observe that retaining 50% of the passage to-ken embeddings provides the best trade-off between effectiveness, index size, and latency across most datasets. Interestingly, on certain out-of-domain datasets, pruning acts as a form of noise reduction—where retaining only 25% of the token embeddings leads to improved retrieval performance over the full, unpruned index. | eng |
dc.description.resumo | Modelos de recuperação multivetorial empregam codificadores duplos para gerar embeddings contextuais para consultas e passagens e têm se mostrado altamente efetivos na captura de interações ricas em nível de token. Modelos como ColBERT, ColBERTv2 e PLAID aproveitam todos os vetores de saída em nível de token do codificador para modelar com precisão as relações consulta-passagem. No entanto, armazenar vetores para cada token de passagem impõe requisitos significativos de memória de armazenamento. Além disso, a latência da consulta é fortemente impactada pelo custo computacional da execução de operações de produto interno entre cada embedding de token de consulta e todos os embeddings de token de passagem para calcular pontuações de similaridade agregadas. Neste trabalho, investiga-se técnicas de poda aplicadas a embeddings de passagens produzidos por PLAID, com o objetivo de remover embeddings de tokens menos importantes, a fim de aumentar a eficiência da memória e reduzir o tempo de processamento de consultas, ao custo de uma possível pequena queda na efetividade. Propo-se dois novos métodos de poda: MLM Max com Reordenação de Tokens (MMTR) e TF-IDF pruning. Realiza-se experimentos extensivos em conjuntos de dados dentro e fora do domínio, seguindo os protocolos de avaliação recomendados. Os resultados mostram que o MMTR atinge consistentemente a menor queda na efetividade em comparação com o modelo PLAID sem poda. Além disso, a retenção de 50% dos embeddings de tokens de passagem oferece a melhor solução de compromisso entre efetividade de recuperação, tamanho do índice e latência da consulta na maioria dos conjuntos de dados. No entanto, para certos conjuntos de dados fora do domínio, a poda também atua como uma forma de redução de ruído. Nesses casos, mesmo quando apenas 25% dos vetores do PLAID são retidos, o modelo podado supera o PLAID sem poda, em efetividade de recuperação. | |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES | |
dc.description.sponsorship | Outro | |
dc.identifier.citation | CHIHURURU, A. M. Proposal and Evaluation of Efficient Pruning Approaches for Multi-Vector Representation in Passage Retrieval = Proposta e Avaliação de Abordagens Eficientes de Poda para Representações Multi-Vetoriais na Recuperação de Passagens. 2025. 125 f. Dissertação (Mestrado em Ciência da Computação) – Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2025. | |
dc.identifier.uri | https://repositorio.bc.ufg.br/tede/handle/tede/14607 | |
dc.language | eng | |
dc.publisher | Universidade Federal de Goiás | por |
dc.publisher.country | Brasil | por |
dc.publisher.department | Instituto de Informática - INF (RMG) | |
dc.publisher.initials | UFG | por |
dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | |
dc.rights | Acesso Aberto | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Métodos de poda | por |
dc.subject | Modelos de recuperação multi-vetoriais | por |
dc.subject | Bi-codificadores | por |
dc.subject | Recuperação de informação | por |
dc.subject | Pruning methods | eng |
dc.subject | Multi-vector retrieval models | eng |
dc.subject | Bi-encoders | eng |
dc.subject | Information re-trieval | eng |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
dc.title | Proposal and Evaluation of Efficient Pruning Approaches for Multi-Vector Representation in Passage Retrieval | |
dc.title.alternative | Proposta e Avaliação de Abordagens Eficientes de Poda para Representações Multi-Vetoriais na Recuperação de Passagens | por |
dc.type | Dissertação |