Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place

dc.contributor.advisor-co1Costa, Nattane Luíza da
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/9968129748669015
dc.contributor.advisor1Barbosa, Rommel Melgaço
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6228227125338610
dc.contributor.referee1Barbosa, Rommel Melgaço
dc.contributor.referee2Lima, Marcio Dias de
dc.contributor.referee3Oliveira, Alexandre César Muniz de
dc.contributor.referee4Gonçalves, Christiane
dc.contributor.referee5Rodrigues, Diego de Castro
dc.creatorRibeiro, Guilherme Alberto Sousa
dc.creator.Latteshttp://lattes.cnpq.br/2551023125685122
dc.date.accessioned2024-01-09T13:12:39Z
dc.date.available2024-01-09T13:12:39Z
dc.date.issued2024-09-28
dc.description.abstractThe high dimensionality of many datasets has led to the need for dimensionality reduction algorithms that increase performance, reduce computational effort and simplify data processing in applications focused on machine learning or pattern recognition. Due to the need and importance of reduced data, this paper proposes an investigation of feature selection methods, focusing on methods that use AUC (Area Under the ROC curve). Trends in the use of feature selection methods in general and for methods using AUC as an estimator, applied to microarray data, were evaluated. A new feature selection algorithm, the AUC-based feature selection method with probability estimation and the La PLace smoothing method (AUC-EPS), was then developed. The proposed method calculates the AUC considering all possible values of each feature associated with estimation probability and the La Place smoothing method. Experiments were conducted to compare the proposed technique with the FAST (Feature Assessment by Sliding Thresholds) and ARCO (AUC and Rank Correlation coefficient Optimization) algorithms. Eight datasets related to gene expression in microarrays were used, all of which were used for the crossvalidation experiment and four for the bootstrap experiment. The results showed that the proposed method helped improve the performance of some classifiers and in most cases with a completely different set of features than the other techniques, with some of these features identified by AUC-EPS being critical for disease identification. The work concluded that the proposed method, called AUC-EPS, selects features different from the algorithms FAST and ARCO that help to improve the performance of some classifiers and identify features that are crucial for discriminating cancer.eng
dc.description.provenanceSubmitted by Dayane Basílio (dayanebasilio@ufg.br) on 2024-01-09T13:02:14Z workflow start=Step: editstep - action:claimaction No. of bitstreams: 2 Tese - Guilherme Alberto Sousa Ribeiro - 2023.pdf: 2039473 bytes, checksum: 8e549cd51860850496c5a9699c2aaa75 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceStep: editstep - action:editaction Approved for entry into archive by Luciana Ferreira(lucgeral@gmail.com) on 2024-01-09T13:12:38Z (GMT)en
dc.description.provenanceMade available in DSpace on 2024-01-09T13:12:39Z (GMT). No. of bitstreams: 2 Tese - Guilherme Alberto Sousa Ribeiro - 2023.pdf: 2039473 bytes, checksum: 8e549cd51860850496c5a9699c2aaa75 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2024-09-28en
dc.description.resumoA alta dimensionalidade em que muitos dados são dispostos trouxe a necessidade de algoritmos de redução de dimensionalidade, os quais potencializam a performance, reduzem o esforço computacional e simplificam o processamento de dados em aplicações voltadas para as áreas de aprendizagem de máquina ou reconhecimento de padrões. Devido a necessidade e importância de ter uma base de dados reduzida, este trabalho propõe estudo sobre métodos de seleção de características, com ênfase aos métodos que utilizam AUC (Area Under the ROC curve). Foram avaliadas as tendências no uso de métodos de seleção de características em geral e para os métodos que usam AUC como estimador, aplicados a dados microarray. Em seguida, foi desenvolvido novo algoritmo de seleção de características denominado método de seleção de características baseado em AUC com estimativa de probabilidade e método de suavização de La PLace (AUC-EPS). O método proposto calcula o AUC levando em consideração todos os possíveis valores de cada característica, associado a estimativa de probabilidade e ao método de suavização de La Place (smoothing). Os experimentos foram realizados de forma a comparar a técnica proposta com os algoritmos FAST (Feature Assessment by Sliding Thresholds) e ARCO (AUC and Rank Correlation coefficient Optimization) a partir do uso de oito conjuntos de dados de relacionadas a expressão genética em microarrays, sendo a totalidade de conjuntos utilizada para o experimento de validação cruzada e quatro utilizadas no experimento de bootstrap. Os resultados demonstraram que o método proposto colaborou para a melhoria de performance de alguns classificadores e, na maioria casos, atingiu tal objetivo usando um conjunto de características completamente diferente das demais técnicas, sendo algumas dessas características identificadas pelo AUC-EPS determinantes para identificar doenças. O trabalho concluiu que o método proposto, denominado AUC-EPS, seleciona características diferentes dos algoritmos FAST e ARCO, colaborando para a melhoria de desempenho de alguns classificadores e identificando características determinantes para discriminar câncer.
dc.identifier.citationRIBEIRO, G. A. Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place. 2023. 113 f. Tese (Doutorado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2023.
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/13216
dc.languagepor
dc.publisherUniversidade Federal de Goiás
dc.publisher.countryBrasil
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.publisher.initialsUFG
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectSeleção de característicaspor
dc.subjectÁrea abaixo da curva ROCpor
dc.subjectAprendizado supervisionadopor
dc.subjectClassificaçãopor
dc.subjectFeature selectioneng
dc.subjectArea under the ROC curveeng
dc.subjectSupervised learningeng
dc.subjectClassificationeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleAbordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place
dc.title.alternativeAUC-based feature selection approach with probability estimation combined with La Place smoothing techniqueeng
dc.typeTese

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Tese - Guilherme Alberto Sousa Ribeiro - 2023.pdf
Tamanho:
1.94 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: