Algoritmos de junção por similaridade sobre fluxo de dados
dc.contributor.advisor1 | Ribeiro, Leonardo Andrade | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/4036932351063584 | pt_BR |
dc.contributor.referee1 | Ribeiro, Leonardo Andrade | |
dc.contributor.referee2 | Dorneles, Carina Friedrich | |
dc.contributor.referee3 | Leitão Junior, Plinio de Sa | |
dc.creator | Pacífico, Lucas Oliveira | |
dc.creator.Lattes | http://lattes.cnpq.br/5875824471675908 | pt_BR |
dc.date.accessioned | 2020-10-05T11:38:35Z | |
dc.date.available | 2020-10-05T11:38:35Z | |
dc.date.issued | 2020-07-21 | |
dc.description.abstract | In today's Big Data era, data is generated and collected at high speed, which imposes strict performance and memory requirements for processing this data. Also, the presence of heterogeneity data demands the use of similarity operations, which are computationally more expensive. In this context, the present work investigates the problem of performing similarity join over a continuous stream of data represented by sets. The concept of temporal similarity is employed, where the similarity between two data items decreases with the distance in their arrival time. The proposed algorithms directly incorporates this concept to reduce the comparison of space and memory consumption. Moreover, a new technique based on the partial frequency of the data elements is presented to substantially reduce processing cost. Results of the experimental evaluation performed demonstrate that the techniques presented provide substantial performance gains and good memory usage. | eng |
dc.description.provenance | Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2020-10-04T17:46:27Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Dissertação - Lucas Oliveira Pacífico - 2020.pdf: 871854 bytes, checksum: 2d972c080a249d098908c0da13264d9d (MD5) | en |
dc.description.provenance | Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2020-10-05T11:38:35Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Dissertação - Lucas Oliveira Pacífico - 2020.pdf: 871854 bytes, checksum: 2d972c080a249d098908c0da13264d9d (MD5) | en |
dc.description.provenance | Made available in DSpace on 2020-10-05T11:38:35Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Dissertação - Lucas Oliveira Pacífico - 2020.pdf: 871854 bytes, checksum: 2d972c080a249d098908c0da13264d9d (MD5) Previous issue date: 2020-07-21 | en |
dc.description.resumo | Na atual era de Big Data, dados são gerados e coletados em grande velocidade, o que impõe requisitos severos de desempenho e memória para processamento desses dados. Além disso, a presença de heterogeneidade nos dados demanda o uso de operações de similaridade, que são mais onerosas computacionalmente. Neste contexto, o presente trabalho investiga o problema de realizar junção por similaridade sobre fluxo contínuo de dados representados como conjuntos. O conceito de similaridade temporal é empregado, onde a similaridade entre dois itens de dados é reduzida de acordo com a distância entre os tempos de chegada associados aos mesmos. Os algoritmos propostos incorporam diretamente esse conceito para redução do espaço de comparação e consumo de memória. Mais ainda, uma nova técnica baseada na frequência parcial dos elementos de dados é apresentada para reduzir substancialmente o custo de processamento. Resultados da avaliação experimental realizada demonstram que as técnicas apresentadas propiciam ganhos substanciais de desempenho e bom uso de memória. | pt_BR |
dc.description.sponsorship | Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES | pt_BR |
dc.identifier.citation | PACÍFICO, L. O. Algoritmos de junção por similaridade sobre fluxo de dados. 2020. 51 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020. | pt_BR |
dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/10833 | |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Goiás | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Instituto de Informática - INF (RG) | pt_BR |
dc.publisher.initials | UFG | pt_BR |
dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Similaridade | por |
dc.subject | Fluxo de dado | por |
dc.subject | Auto-junção | por |
dc.subject | Similarity | eng |
dc.subject | Streaming | eng |
dc.subject | Auto-join | eng |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAO | pt_BR |
dc.title | Algoritmos de junção por similaridade sobre fluxo de dados | pt_BR |
dc.title.alternative | Similarity join algorithms on streaming | eng |
dc.type | Dissertação | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Dissertação - Lucas Oliveira Pacífico - 2020.pdf
- Tamanho:
- 851.42 KB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: