Balanceamento de dados com base em oversampling em dados transformados

Maione, Camila

Balanceamento de dados com base em oversampling em dados transformados

dc.contributor.advisor1	Barbosa, Rommel Melgaço
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/6228227125338610	pt_BR
dc.contributor.referee1	Barbosa, Rommel Melgaço
dc.contributor.referee2	Leitão Júnior, Plínio
dc.contributor.referee3	Costa, Ronaldo Martins da
dc.contributor.referee4	Costa, Ana Paula Cabral Seixas
dc.contributor.referee5	Lozano, Kátia Kelvis Cassiano
dc.creator	Maione, Camila
dc.creator.Lattes	http://lattes.cnpq.br/3960167225526655	pt_BR
dc.date.accessioned	2020-11-26T11:54:36Z
dc.date.available	2020-11-26T11:54:36Z
dc.date.issued	2020-08-17
dc.description.abstract	Introduction: The efficiency and reliability of data analyses depends heavily on the quality of the analyzed data. The fundamental process of preparing databases in order to make them cleaner, more representative and improve their quality is called data preprocessing, during which data balancing is also performed. The importance of data balancing lies in the fact that several classification models commonly employed in enterprises and academic projects are designed to work with balanced data sets, and there are several factors which hinder classification performance which are associated to data imbalance. Objective: A new approach for data balancing based on data transformation combined with resampling of transformed data is proposed. The proposed approach transforms the original data set by transforming its input variables into new ones, therefore altering the data samples' position in the dimensional plane and consequently the choice that SMOTE-based resampling algorithms make over the initial samples, their nearest neighbours and where to place the generated synthetic samples. Methods: An initial implementation based on Principal Component Analysis (PCA) and SMOTE is presented, called PCA-SMOTE. In order to test the quality of the balancing performed by PCA-SMOTE, twelve test data sets were balanced through PCA-SMOTE and three other popular data balancing methods, and the performance of three classification models trained on these balanced sets are assessed and compared. Results: Several classification models trained on data sets which were balanced using the proposed method presented higher or similar performance measures in comparison to the same models trained on data sets that were balanced through the other evaluated algorithms, such as Borderline-SMOTE, Safe-Level-SMOTE and ADASYN. Conclusion: The satisfactory results obtained prove the potential of the proposed algorithm to improve learning of classifiers on imbalanced data sets.	eng
dc.description.resumo	Introdução: A eficiência e confiabilidade de análises de bases de dados dependem da qualidade da base de dados em questão. O processo de preparação de bases de dados para torná-las mais limpas, representativas e de melhor qualidade chama-se pré-processamento de dados, durante o qual também é realizado o balanceamento dos dados. A importância de balancear os dados jaz no fato de que diversos modelos de classificação utilizados em projetos coorporativos e acadêmicos são projetados para trabalhar com conjuntos de dados balanceados, e há diversos outros fatores degradadores de desempenho de classificação que estão associados ao desbalanceamento de dados. Objetivo: Propõe-se uma nova abordagem para balanceamento de dados, baseada em transformação de dados combinada com resampling de dados transformados. A abordagem proposta transforma o conjunto de dados original através da transformação de suas variáveis descritoras, consequentemente alterando a posição das amostras de dados no plano dimensional, influenciando a escolha que algoritmos de resampling como o SMOTE fazem sobre as amostras iniciais, seus vizinhos mais próximos e onde posicionar as amostras sintéticas geradas.Métodos: Uma implementação inicial baseada em análise de componentes principais (PCA) e SMOTE é apresentada, chamado PCA-SMOTE. Para testar a qualidade do balanceamento realizado pelo PCA-SMOTE, 12 bases de dados de teste foram balanceadas utilizando o PCASMOTE e outros três métodos de balanceamento populares na literatura, e o desempenho de três modelos de classificação diferentes treinados com tais bases foram avaliados e comparados. Resultados: Diversos modelos de classificação treinados com bases balanceadas através do método proposto mostraram desempenho superior ou similar aos dos modelos treinados com bases balanceadas pelos outros algoritmos populares, como Borderline-SMOTE, Safe-Level- SMOTE e ADASYN, em diversos casos de teste. Conclusões: Os resultados satisfatórios obtidos comprovam o potencial que o PCA-SMOTE possui para melhorar o aprendizado de classificadores sobre bases de dados desbalanceadas.	pt_BR
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES	pt_BR
dc.identifier.citation	MAIONE, C. Balanceamento de dados com base em oversampling em dados transformados. 2020. 135 f. Tese (Doutorado em Ciência da Computação em Rede) - Universidade Federal de Goiás, Goiânia, 2020.	pt_BR
dc.identifier.uri	http://repositorio.bc.ufg.br/tede/handle/tede/10943
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Goiás	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Instituto de Informática - INF (RG)	pt_BR
dc.publisher.initials	UFG	pt_BR
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação em Rede UFG/UFMS (INF)	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Mineração de dados	por
dc.subject	Classificação de dados	por
dc.subject	Aprendizagem de máquina	por
dc.subject	Balanceamento de dados	por
dc.subject	Transformação de dados	por
dc.subject	Pré-processamento de dados	por
dc.subject	Data mining	eng
dc.subject	Data classification	eng
dc.subject	Machine learning	eng
dc.subject	Imbalanced data	eng
dc.subject	Data transformation	eng
dc.subject	Data preprocessing	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.title	Balanceamento de dados com base em oversampling em dados transformados	pt_BR
dc.title.alternative	Data balancing based on oversampling on transformed data	eng
dc.type	Tese	pt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Tese - Camila Maione - 2020.pdf
Tamanho:: 3.79 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Doutorado em Ciência da Computação em Rede - UFMS/UFG (INF)