Balanceamento de dados com base em oversampling em dados transformados

dc.contributor.advisor1Barbosa, Rommel Melgaço
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6228227125338610pt_BR
dc.contributor.referee1Barbosa, Rommel Melgaço
dc.contributor.referee2Leitão Júnior, Plínio
dc.contributor.referee3Costa, Ronaldo Martins da
dc.contributor.referee4Costa, Ana Paula Cabral Seixas
dc.contributor.referee5Lozano, Kátia Kelvis Cassiano
dc.creatorMaione, Camila
dc.creator.Latteshttp://lattes.cnpq.br/3960167225526655pt_BR
dc.date.accessioned2020-11-26T11:54:36Z
dc.date.available2020-11-26T11:54:36Z
dc.date.issued2020-08-17
dc.description.abstractIntroduction: The efficiency and reliability of data analyses depends heavily on the quality of the analyzed data. The fundamental process of preparing databases in order to make them cleaner, more representative and improve their quality is called data preprocessing, during which data balancing is also performed. The importance of data balancing lies in the fact that several classification models commonly employed in enterprises and academic projects are designed to work with balanced data sets, and there are several factors which hinder classification performance which are associated to data imbalance. Objective: A new approach for data balancing based on data transformation combined with resampling of transformed data is proposed. The proposed approach transforms the original data set by transforming its input variables into new ones, therefore altering the data samples' position in the dimensional plane and consequently the choice that SMOTE-based resampling algorithms make over the initial samples, their nearest neighbours and where to place the generated synthetic samples. Methods: An initial implementation based on Principal Component Analysis (PCA) and SMOTE is presented, called PCA-SMOTE. In order to test the quality of the balancing performed by PCA-SMOTE, twelve test data sets were balanced through PCA-SMOTE and three other popular data balancing methods, and the performance of three classification models trained on these balanced sets are assessed and compared. Results: Several classification models trained on data sets which were balanced using the proposed method presented higher or similar performance measures in comparison to the same models trained on data sets that were balanced through the other evaluated algorithms, such as Borderline-SMOTE, Safe-Level-SMOTE and ADASYN. Conclusion: The satisfactory results obtained prove the potential of the proposed algorithm to improve learning of classifiers on imbalanced data sets.eng
dc.description.provenanceSubmitted by Onia Arantes Albuquerque (onia.ufg@gmail.com) on 2020-11-25T13:30:57Z No. of bitstreams: 2 Tese - Camila Maione - 2020.pdf: 3971430 bytes, checksum: 772603443763c250c13977717736fd41 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceApproved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2020-11-26T11:54:36Z (GMT) No. of bitstreams: 2 Tese - Camila Maione - 2020.pdf: 3971430 bytes, checksum: 772603443763c250c13977717736fd41 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceMade available in DSpace on 2020-11-26T11:54:36Z (GMT). No. of bitstreams: 2 Tese - Camila Maione - 2020.pdf: 3971430 bytes, checksum: 772603443763c250c13977717736fd41 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2020-08-17en
dc.description.resumoIntrodução: A eficiência e confiabilidade de análises de bases de dados dependem da qualidade da base de dados em questão. O processo de preparação de bases de dados para torná-las mais limpas, representativas e de melhor qualidade chama-se pré-processamento de dados, durante o qual também é realizado o balanceamento dos dados. A importância de balancear os dados jaz no fato de que diversos modelos de classificação utilizados em projetos coorporativos e acadêmicos são projetados para trabalhar com conjuntos de dados balanceados, e há diversos outros fatores degradadores de desempenho de classificação que estão associados ao desbalanceamento de dados. Objetivo: Propõe-se uma nova abordagem para balanceamento de dados, baseada em transformação de dados combinada com resampling de dados transformados. A abordagem proposta transforma o conjunto de dados original através da transformação de suas variáveis descritoras, consequentemente alterando a posição das amostras de dados no plano dimensional, influenciando a escolha que algoritmos de resampling como o SMOTE fazem sobre as amostras iniciais, seus vizinhos mais próximos e onde posicionar as amostras sintéticas geradas.Métodos: Uma implementação inicial baseada em análise de componentes principais (PCA) e SMOTE é apresentada, chamado PCA-SMOTE. Para testar a qualidade do balanceamento realizado pelo PCA-SMOTE, 12 bases de dados de teste foram balanceadas utilizando o PCASMOTE e outros três métodos de balanceamento populares na literatura, e o desempenho de três modelos de classificação diferentes treinados com tais bases foram avaliados e comparados. Resultados: Diversos modelos de classificação treinados com bases balanceadas através do método proposto mostraram desempenho superior ou similar aos dos modelos treinados com bases balanceadas pelos outros algoritmos populares, como Borderline-SMOTE, Safe-Level- SMOTE e ADASYN, em diversos casos de teste. Conclusões: Os resultados satisfatórios obtidos comprovam o potencial que o PCA-SMOTE possui para melhorar o aprendizado de classificadores sobre bases de dados desbalanceadas.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESpt_BR
dc.identifier.citationMAIONE, C. Balanceamento de dados com base em oversampling em dados transformados. 2020. 135 f. Tese (Doutorado em Ciência da Computação em Rede) - Universidade Federal de Goiás, Goiânia, 2020.pt_BR
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/10943
dc.languageporpt_BR
dc.publisherUniversidade Federal de Goiáspt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto de Informática - INF (RG)pt_BR
dc.publisher.initialsUFGpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação em Rede UFG/UFMS (INF)pt_BR
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectMineração de dadospor
dc.subjectClassificação de dadospor
dc.subjectAprendizagem de máquinapor
dc.subjectBalanceamento de dadospor
dc.subjectTransformação de dadospor
dc.subjectPré-processamento de dadospor
dc.subjectData miningeng
dc.subjectData classificationeng
dc.subjectMachine learningeng
dc.subjectImbalanced dataeng
dc.subjectData transformationeng
dc.subjectData preprocessingeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.titleBalanceamento de dados com base em oversampling em dados transformadospt_BR
dc.title.alternativeData balancing based on oversampling on transformed dataeng
dc.typeTesept_BR

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Tese - Camila Maione - 2020.pdf
Tamanho:
3.79 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: