Junções por similaridade aproximadas em espaços vetoriais densos

Santana , Douglas Rolins de

Junções por similaridade aproximadas em espaços vetoriais densos

dc.contributor.advisor-co1	Santana
dc.contributor.advisor1	Ribeiro, Leonardo Andrade
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4036932351063584
dc.contributor.referee1	Ribeiro, Leonardo Andrade
dc.contributor.referee2	Bedo, Marcos Vinicius Naves
dc.contributor.referee3	Martins, Wellington Santos
dc.creator	Santana , Douglas Rolins de
dc.creator.Lattes	https://lattes.cnpq.br/6843698978977791
dc.date.accessioned	2023-10-16T14:48:15Z
dc.date.available	2023-10-16T14:48:15Z
dc.date.issued	2023-08-24
dc.description.abstract	Similarity Join is an operation that returns pairs of objects whose similarity is greater than or equal to a specified threshold, and is essential for tasks such as cleaning, mining, and data integration. A common approach is to use data vector representations, such as the TFIDF method, and measure the similarity between vectors using the cosine function. However, computing the similarity for all pairs of vectors can be computationally prohibitive on large data sets. Traditional algorithms exploit the sparsity of vectors and apply filters to reduce the comparison space. Recently, advances in natural language processing have produced in semantically richer vectors, improving the results quality. However, these vectors have different characteristics from those generated by traditional methods, being dense and of high dimensionality. Preliminary experiments demonstrated that L2AP, the best known algorithm for similarity join, is not efficient for dense vector spaces. Due to the intrinsic characteristics of such vectors, approximate solutions based on specialized indices are predominant for dealing with large datasets. In this context, we investigate how to perform similarity joins using the Hierarchical Navigable Small World (HNSW), a state-of-the-art graph-based index designed for approximate k-nearest neighbor (kNN) queries. We explored the design space of possible solutions, ranging from top-end alternatives to HNSW to deeper integration of similarity join processing into this framework. The experiments carried out demonstrated accelerations of up to 2.48 and 3.47 orders of magnitude in relation to the exact method and the baseline approach, respectively, maintaining recovery rates close to 100%.	eng
dc.description.provenance	Submitted by Dayane Basílio (dayanebasilio@ufg.br) on 2023-10-05T14:08:23Z workflow start=Step: editstep - action:claimaction No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Douglas Rolins de Santana - 2023.pdf: 2340915 bytes, checksum: 85470543a8c6995a8b36bf5676fa176f (MD5)	en
dc.description.provenance	Step: editstep - action:editaction Approved for entry into archive by Luciana Ferreira(lucgeral@gmail.com) on 2023-10-16T14:48:15Z (GMT)	en
dc.description.provenance	Made available in DSpace on 2023-10-16T14:48:15Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Douglas Rolins de Santana - 2023.pdf: 2340915 bytes, checksum: 85470543a8c6995a8b36bf5676fa176f (MD5) Previous issue date: 2023-08-24	en
dc.description.resumo	Junção por similaridade é uma operação que retorna pares de objetos cuja similaridade é maior ou igual a um limite especificado, sendo essencial para tarefas como limpeza, mineração e integração de dados. Uma abordagem comum é utilizar representações vetoriais dos dados, como o método TF-IDF, e medir a similaridade entre vetores usando a função cosseno. No entanto, calcular a similaridade para todos os pares de vetores pode ser computacionalmente proibitivo em grandes conjuntos de dados. Algoritmos tradicionais exploram a esparsidade dos vetores e aplicam filtros para reduzir o espaço de comparação. Recentemente, avanços no processamento de linguagem natural resultaram em vetores semanticamente mais ricos, melhorando a qualidade dos resultados. No entanto, esses vetores têm características distintas dos gerados por métodos tradicionais, sendo densos e de alta dimensionalidade. Experimentos preliminares demonstraram que o L2AP, melhor algoritmo conhecido para junção por similaridade, não é eficiente em espaços vetoriais densos. Devido às características intrínsecas de tais vetores, soluções aproximadas baseadas em índices especializados são predominantes para lidar com grandes conjuntos de dados. Nesse contexto, foram investigadas formas de realizar junções por similaridade usando o Hierarchical Navigable Small World (HNSW), um índice baseado em grafos de última geração projetado para buscas aproximadas de k-vizinho mais próximo (kNN). Foi explorado o espaço de projeto de possíveis soluções, variando de alternativas do topo do HNSW à uma integração mais profunda do processamento de junção por similaridade nessa estrutura. Os experimentos realizados demonstraram acelerações de até 2,48 e 3,47 ordens de magnitude em relação ao método exato e à abordagem baseline, respectivamente, mantendo taxas de recuperação próximas a 100%.
dc.identifier.citation	SANTANA, Douglas R. Junções por similaridade aproximadas em espaços vetoriais densos. 2023. 101 p. Dissertação (Mestrado em Ciência da computação) - Instituto de informática, Universidade federal de Goiás, 2023.
dc.identifier.uri	http://repositorio.bc.ufg.br/tede/handle/tede/13058
dc.language	por
dc.publisher	Universidade Federal de Goiás
dc.publisher.country	Brasil
dc.publisher.department	Instituto de Informática - INF (RG)
dc.publisher.initials	UFG
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação (INF)
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Junção por similaridade	por
dc.subject	Word embeddings	por
dc.subject	Vetores densos	por
dc.subject	HNSW	por
dc.subject	Similarity join	eng
dc.subject	Dense vectors	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.title	Junções por similaridade aproximadas em espaços vetoriais densos
dc.title.alternative	Approximate similarity joins over dense vector embeddings	eng
dc.type	Dissertação

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Dissertação - Douglas Rolins de Santana - 2023.pdf
Tamanho:: 2.23 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Mestrado em Ciência da Computação (INF)