Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place
dc.contributor.advisor-co1 | Costa, Nattane Luíza da | |
dc.contributor.advisor-co1Lattes | http://lattes.cnpq.br/9968129748669015 | |
dc.contributor.advisor1 | Barbosa, Rommel Melgaço | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/6228227125338610 | |
dc.contributor.referee1 | Barbosa, Rommel Melgaço | |
dc.contributor.referee2 | Lima, Marcio Dias de | |
dc.contributor.referee3 | Oliveira, Alexandre César Muniz de | |
dc.contributor.referee4 | Gonçalves, Christiane | |
dc.contributor.referee5 | Rodrigues, Diego de Castro | |
dc.creator | Ribeiro, Guilherme Alberto Sousa | |
dc.creator.Lattes | http://lattes.cnpq.br/2551023125685122 | |
dc.date.accessioned | 2024-03-08T14:01:08Z | |
dc.date.available | 2024-03-08T14:01:08Z | |
dc.date.issued | 2023-09-28 | |
dc.description.abstract | The high dimensionality of many datasets has led to the need for dimensionality reduction algorithms that increase performance, reduce computational effort and simplify data processing in applications focused on machine learning or pattern recognition. Due to the need and importance of reduced data, this paper proposes an investigation of feature selection methods, focusing on methods that use AUC (Area Under the ROC curve). Trends in the use of feature selection methods in general and for methods using AUC as an estimator, applied to microarray data, were evaluated. A new feature selection algorithm, the AUC-based feature selection method with probability estimation and the La PLace smoothing method (AUC-EPS), was then developed. The proposed method calculates the AUC considering all possible values of each feature associated with estimation probability and the LaPlace smoothing method. Experiments were conducted to compare the proposed technique with the FAST (Feature Assessment by Sliding Thresholds) and ARCO (AUC and Rank Correlation coefficient Optimization) algorithms. Eight datasets related to gene expression in microarrays were used, all of which were used for the cross-validation experiment and four for the bootstrap experiment. The results showed that the proposed method helped improve the performance of some classifiers and in most cases with a completely different set of features than the other techniques, with some of these features identified by AUC-EPS being critical for disease identification. The work concluded that the proposed method, called AUC-EPS, selects features different from the algorithms FAST and ARCO that help to improve the performance of some classifiers and identify features that are crucial for discriminating cancer. | eng |
dc.description.provenance | Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2023-11-03T19:36:14Z workflow start=Step: editstep - action:claimaction No. of bitstreams: 2 Tese - Guilherme Alberto Sousa Ribeiro - 2023.pdf: 1974044 bytes, checksum: ca0369c5ea926cf554a30fd7d3e750f9 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) | en |
dc.description.provenance | Step: editstep - action:editaction Rejected by Luciana Ferreira(lucgeral@gmail.com), reason: Observe que o termo LaPlace consta digitado junto no TECA e ata, já na capa, folha de rosto e ficha catalográfica e no seu depósito está La Place, exceto no título em inglês. Pergunte para o aluno qual é a forma correta on 2023-11-06T10:51:56Z (GMT) | en |
dc.description.provenance | Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2024-03-07T20:59:47Z workflow start=Step: editstep - action:claimaction No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Guilherme Alberto Sousa Ribeiro - 2023.pdf: 2039473 bytes, checksum: 8e549cd51860850496c5a9699c2aaa75 (MD5) | en |
dc.description.provenance | Step: editstep - action:editaction Approved for entry into archive by Luciana Ferreira(lucgeral@gmail.com) on 2024-03-08T14:01:08Z (GMT) | en |
dc.description.provenance | Made available in DSpace on 2024-03-08T14:01:08Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Tese - Guilherme Alberto Sousa Ribeiro - 2023.pdf: 2039473 bytes, checksum: 8e549cd51860850496c5a9699c2aaa75 (MD5) Previous issue date: 2023-09-29 | en |
dc.description.resumo | A alta dimensionalidade em que muitos dados são dispostos trouxe a necessidade de algoritmos de redução de dimensionalidade, os quais potencializam a performance, reduzem o esforço computacional e simplificam o processamento de dados em aplicações voltadas para as áreas de aprendizagem de máquina ou reconhecimento de padrões. Devido a necessidade e importância de ter uma base de dados reduzida, este trabalho propõe estudo sobre métodos de seleção de características, com ênfase aos métodos que utilizam AUC (Area Under the ROC curve). Foram avaliadas as tendências no uso de métodos de seleção de características em geral e para os métodos que usam AUC como estimador, aplicados a dados microarray. Em seguida, foi desenvolvido novo algoritmo de seleção de características denominado método de seleção de características baseado em AUC com estimativa de probabilidade e método de suavização de La PLace (AUC-EPS). O método proposto calcula o AUC levando em consideração todos os possíveis valores de cada característica, associado a estimativa de probabilidade e ao método de suavização de La Place (smoothing). Os experimentos foram realizados de forma a comparar a técnica proposta com os algoritmos FAST (Feature Assessment by Sliding Thresholds) e ARCO (AUC and Rank Correlation coefficient Optimization) a partir do uso de oito conjuntos de dados de relacionadas a expressão genética em microarrays, sendo a totalidade de conjuntos utilizada para o experimento de validação cruzada e quatro utilizadas no experimento de bootstrap. Os resultados demonstraram que o método proposto colaborou para a melhoria de performance de alguns classificadores e, na maioria casos, atingiu tal objetivo usando um conjunto de características completamente diferente das demais técnicas, sendo algumas dessas características identificadas pelo AUC-EPS determinantes para identificar doenças. O trabalho concluiu que o método proposto, denominado AUC-EPS, seleciona características diferentes dos algoritmos FAST e ARCO, colaborando para a melhoria de desempenho de alguns classificadores e identificando características determinantes para discriminar câncer. | |
dc.identifier.citation | RIBEIRO, G. A. S. Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place. 2023. 113 f. Tese (Doutorado em Ciência da Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2023. | |
dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/13315 | |
dc.language | por | |
dc.publisher | Universidade Federal de Goiás | |
dc.publisher.country | Brasil | |
dc.publisher.department | Instituto de Informática - INF (RMG) | |
dc.publisher.initials | UFG | |
dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | en |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Seleção de características | por |
dc.subject | Área abaixo da curva ROC | por |
dc.subject | Aprendizado supervisionado | por |
dc.subject | Classificação | por |
dc.subject | Feature selection | eng |
dc.subject | Area under the ROC curve | eng |
dc.subject | Supervised learning | eng |
dc.subject | Classification | eng |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | |
dc.title | Abordagem de seleção de características baseada em AUC com estimativa de probabilidade combinada a técnica de suavização de La Place | |
dc.title.alternative | AUC-based feature selection approach with probability estimation combined with La Place smoothing technique | eng |
dc.type | Tese |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Tese - Guilherme Alberto Sousa Ribeiro - 2023.pdf
- Tamanho:
- 1.94 MB
- Formato:
- Adobe Portable Document Format
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: