Aprimoramento do modelo de seleção dos padrões associativos: uma abordagem de mineração de dados

dc.contributor.advisor1Barbosa, Rommel Melgaço
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6228227125338610pt_BR
dc.contributor.referee1Barbosa, Rommel Melgaço
dc.contributor.referee2Costa, Ronaldo Martins da
dc.contributor.referee3Costa, Nattane Luíza da
dc.contributor.referee4Rocha, Marcelo Lisboa
dc.contributor.referee5Jorge, Lúcio de Castro
dc.creatorRodrigues, Diego de Castro
dc.creator.Latteshttp://lattes.cnpq.br/9582612733423890pt_BR
dc.date.accessioned2022-01-19T12:29:17Z
dc.date.available2022-01-19T12:29:17Z
dc.date.issued2021-12-20
dc.description.abstractThe objective of this study is to improve the association rule selection model through a set of asymmetric probabilistic metrics. We present the Health Association Rules - HAR, based on Apriori, the algorithm is composed of six functions and uses alternative metrics to the Support/Confidence model to identify the implication X → Y . Initially, the application of our solution was focused only on health data, but we realized that asymmetrical associative patterns could be applied in other contexts that seek to address the cause and effect of a pattern. Our experiments were composed of 60 real datasets taken from specialist websites, research partnerships and open data. We empirically observed the behavior of HAR in all data sets, and a comparison was performed with the classical Apriori algorithm. We realized that it has overcome the main problems of the Support/Confidence model. We were able to identify the most relevant patterns for the observed datasets, eliminating logical contradictions and redundancies. We also perform a statistical analysis of the experiments where the statistical effect is positive for HAR. HAR was able to discover more representative patterns and rare patterns, in addition to being able to perform rule grouping, filtering and ranking. Our solution presented a linear behavior in the experiments, being able to be applied in health, social, content suggestion, product indication and educational data. Not limited to these data domains, HAR is prepared to receive large amounts of data by using a customized parallel architecture.eng
dc.description.provenanceSubmitted by Luciana Ferreira (lucgeral@gmail.com) on 2022-01-18T13:00:15Z No. of bitstreams: 2 Tese - Diego de Castro Rodrigues - 2021.pdf: 25933905 bytes, checksum: d986febf6f91b5c564368b1d9d3c206b (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceApproved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2022-01-19T12:29:17Z (GMT) No. of bitstreams: 2 Tese - Diego de Castro Rodrigues - 2021.pdf: 25933905 bytes, checksum: d986febf6f91b5c564368b1d9d3c206b (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceMade available in DSpace on 2022-01-19T12:29:17Z (GMT). No. of bitstreams: 2 Tese - Diego de Castro Rodrigues - 2021.pdf: 25933905 bytes, checksum: d986febf6f91b5c564368b1d9d3c206b (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2021-12-20en
dc.description.resumoO objetivo deste estudo é aprimorar o modelo de seleção de regras de associação através de um conjunto de métricas probabilísticas assimétricas. Apresentamos o Health Association Rules - HAR, baseado no Apriori o algoritmo é composto por seis funções e usa métricas alternativas ao modelo Suporte/Confiança para identificar a implicação X → Y . Inicial- mente, a aplicação de nossa solução era focada apenas em dados de saúde, mas percebemos que padrões associativos assimétricos poderiam ser aplicados em outros contextos que buscam abordar a causa e o efeito de um padrão. Nossos experimentos foram compostos de 60 conjuntos de dados reais retirados de sites especializados, parcerias de pesquisa e dados abertos. Observamos empiricamente o comportamento do HAR em todos os conjuntos de dados e uma comparação foi realizada com o algoritmo clássico Apriori. Percebemos que superou os principais problemas do modelo Suporte/Confiança. Conseguimos identificar os padrões mais relevantes para os conjuntos de dados observados, eliminando contradições lógicas e redundâncias. Também realizamos uma análise estatística dos experimentos em que o efeito estatístico é positivo para HAR. O HAR conseguiu descobrir padrões mais representativos e padrões raros, além de consegui realizar agrupamento de regras, filtro e ranqueamento. Nossa solução apresentou um comportamento linear nos experimentos, po- dendo ser aplicada em dados de saúde, sociais, sugestão de conteúdo, indicação de produto e educacional. Não se limitando a esses domínios de dados, o HAR está preparado para receber grandes quantidades de dados por utilizar uma arquitetura paralela customizada.pt_BR
dc.identifier.citationRODRIGUES, D. C. Aprimoramento do modelo de seleção dos padrões associativos: uma abordagem de mineração de dados. 2021. 184 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2021.pt_BR
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/11850
dc.languageporpt_BR
dc.publisherUniversidade Federal de Goiáspt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto de Informática - INF (RG)pt_BR
dc.publisher.initialsUFGpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)pt_BR
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectMineração de dadospor
dc.subjectPadrões associativospor
dc.subjectMétricas assimétricaspor
dc.subjectRegras de associaçãopor
dc.subjectData Miningeng
dc.subjectAssociative patternseng
dc.subjectAsymmetric metricseng
dc.subjectAssociation ruleseng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.titleAprimoramento do modelo de seleção dos padrões associativos: uma abordagem de mineração de dadospt_BR
dc.title.alternativeImproving the standards selection model associatives: a data mining approacheng
dc.typeTesept_BR

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Tese - Diego de Castro Rodrigues - 2021.pdf
Tamanho:
24.73 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: