Algoritmos de junção por similaridade sobre fluxo de dados

dc.contributor.advisor1Ribeiro, Leonardo Andrade
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4036932351063584pt_BR
dc.contributor.referee1Ribeiro, Leonardo Andrade
dc.contributor.referee2Dorneles, Carina Friedrich
dc.contributor.referee3Leitão Junior, Plinio de Sa
dc.creatorPacífico, Lucas Oliveira
dc.creator.Latteshttp://lattes.cnpq.br/5875824471675908pt_BR
dc.date.accessioned2020-10-05T11:38:35Z
dc.date.available2020-10-05T11:38:35Z
dc.date.issued2020-07-21
dc.description.abstractIn today's Big Data era, data is generated and collected at high speed, which imposes strict performance and memory requirements for processing this data. Also, the presence of heterogeneity data demands the use of similarity operations, which are computationally more expensive. In this context, the present work investigates the problem of performing similarity join over a continuous stream of data represented by sets. The concept of temporal similarity is employed, where the similarity between two data items decreases with the distance in their arrival time. The proposed algorithms directly incorporates this concept to reduce the comparison of space and memory consumption. Moreover, a new technique based on the partial frequency of the data elements is presented to substantially reduce processing cost. Results of the experimental evaluation performed demonstrate that the techniques presented provide substantial performance gains and good memory usage.eng
dc.description.provenanceSubmitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2020-10-04T17:46:27Z No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Dissertação - Lucas Oliveira Pacífico - 2020.pdf: 871854 bytes, checksum: 2d972c080a249d098908c0da13264d9d (MD5)en
dc.description.provenanceApproved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2020-10-05T11:38:35Z (GMT) No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Dissertação - Lucas Oliveira Pacífico - 2020.pdf: 871854 bytes, checksum: 2d972c080a249d098908c0da13264d9d (MD5)en
dc.description.provenanceMade available in DSpace on 2020-10-05T11:38:35Z (GMT). No. of bitstreams: 2 license_rdf: 811 bytes, checksum: e39d27027a6cc9cb039ad269a5db8e34 (MD5) Dissertação - Lucas Oliveira Pacífico - 2020.pdf: 871854 bytes, checksum: 2d972c080a249d098908c0da13264d9d (MD5) Previous issue date: 2020-07-21en
dc.description.resumoNa atual era de Big Data, dados são gerados e coletados em grande velocidade, o que impõe requisitos severos de desempenho e memória para processamento desses dados. Além disso, a presença de heterogeneidade nos dados demanda o uso de operações de similaridade, que são mais onerosas computacionalmente. Neste contexto, o presente trabalho investiga o problema de realizar junção por similaridade sobre fluxo contínuo de dados representados como conjuntos. O conceito de similaridade temporal é empregado, onde a similaridade entre dois itens de dados é reduzida de acordo com a distância entre os tempos de chegada associados aos mesmos. Os algoritmos propostos incorporam diretamente esse conceito para redução do espaço de comparação e consumo de memória. Mais ainda, uma nova técnica baseada na frequência parcial dos elementos de dados é apresentada para reduzir substancialmente o custo de processamento. Resultados da avaliação experimental realizada demonstram que as técnicas apresentadas propiciam ganhos substanciais de desempenho e bom uso de memória.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpt_BR
dc.identifier.citationPACÍFICO, L. O. Algoritmos de junção por similaridade sobre fluxo de dados. 2020. 51 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020.pt_BR
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/10833
dc.languageporpt_BR
dc.publisherUniversidade Federal de Goiáspt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto de Informática - INF (RG)pt_BR
dc.publisher.initialsUFGpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)pt_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectSimilaridadepor
dc.subjectFluxo de dadopor
dc.subjectAuto-junçãopor
dc.subjectSimilarityeng
dc.subjectStreamingeng
dc.subjectAuto-joineng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::MATEMATICA DA COMPUTACAO::MODELOS ANALITICOS E DE SIMULACAOpt_BR
dc.titleAlgoritmos de junção por similaridade sobre fluxo de dadospt_BR
dc.title.alternativeSimilarity join algorithms on streamingeng
dc.typeDissertaçãopt_BR

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Dissertação - Lucas Oliveira Pacífico - 2020.pdf
Tamanho:
851.42 KB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: