Algoritmo evolutivo com representação inteira para seleção de características

dc.contributor.advisor-co1Soares, Anderson da Silva
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/1096941114079527eng
dc.contributor.advisor1Soares, Telma Woerle de Lima
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/6296363436468330eng
dc.contributor.referee1Soares, Telma Woerle de Lima
dc.contributor.referee1Latteshttp://lattes.cnpq.br/6296363436468330eng
dc.contributor.referee2Soares, Anderson da Silva
dc.contributor.referee2Latteshttp://lattes.cnpq.br/1096941114079527eng
dc.contributor.referee3Camilo Junior , Celso Gonçalves
dc.contributor.referee4Dias , Jailson Cardoso
dc.creatorSousa, Rhelcris Salvino de
dc.creator.Latteshttp://lattes.cnpq.br/4001011015559091eng
dc.date.accessioned2017-06-01T11:00:44Z
dc.date.issued2017-04-20
dc.description.abstractMachine learning problems usually involve a large number of features or variables. In this context, feature selection algorithms have the challenge of determining a reduced subset from the original set. The main difficulty in this task is the high number of solutions available in the search space. In this context, genetic algorithm is one of the most used techniques in this type of problem due to its implicit parallelism in the exploration of the search space of the problem considered. However, a binary type representation is usually used to encode the solutions. This work proposes an implementation solution that makes use of integer representation called intEA-MLR instead of binary. The integer representation optimizes the understanding of the data, as the features to be selected are represented by integer values, reducing the size of the chromosome used in the search process. The intEA-MLR in this context is presented as an alternative way of solving high dimensional problems in regression problems. As a case study, three different sets of data are used concerning problems involving determination of properties of interest in samples of 1) Grain Wheat, 2) Medicine tablets and 3) petroleum. Such sets were used in competitions held at the International Diffuse Reflectance Conference (IDRC) (http://cnirs.clubexpress.com/content.aspx?page_id=22&club_ id=409746&module_id=190211), in the years 2008, 2012 and 2014, respectively. The results showed that the proposed solution was able to improve the obtained solutions when compared to the classical implementation that makes use of binary coding, with both more accurate prediction models and with reduced number of features. IntEA-MLR also outperformed the competition winners, reaching 91.17% better than the competition winner for the petroleum data set. In addition, the results also indicated that the computation time required by the intEA-MLR is relatively smaller as more features are available.eng
dc.description.provenanceSubmitted by JÚLIO HEBER SILVA (julioheber@yahoo.com.br) on 2017-05-31T17:56:45Z No. of bitstreams: 2 Dissertação - Rhelcris Salvino de Sousa -2017.pdf: 12280322 bytes, checksum: 2985f69ec9d4b79ed4266baba761bd15 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)eng
dc.description.provenanceApproved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2017-06-01T11:00:44Z (GMT) No. of bitstreams: 2 Dissertação - Rhelcris Salvino de Sousa -2017.pdf: 12280322 bytes, checksum: 2985f69ec9d4b79ed4266baba761bd15 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)eng
dc.description.provenanceMade available in DSpace on 2017-06-01T11:00:44Z (GMT). No. of bitstreams: 2 Dissertação - Rhelcris Salvino de Sousa -2017.pdf: 12280322 bytes, checksum: 2985f69ec9d4b79ed4266baba761bd15 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2017-04-20eng
dc.description.resumoProblemas de aprendizado de máquina geralmente envolvem um grande número de características ou variáveis. Nesse contexto, algoritmos de seleção de características tem como desafio determinar um subconjunto reduzido a partir do conjunto original. A principal dificuldade nesta tarefa é o elevado número de soluções disponíveis no espaço de busca. Nesse contexto, algoritmo genético é uma das técnicas mais utilizadas nesse tipo de problema em razão de seu paralelismo implícito na exploração do espaço de busca do problema considerado. Entretanto, geralmente utiliza-se uma representação do tipo biná- ria para codificar as soluções. Neste trabalho é proposto uma solução de implementação que faz uso de representação inteira denominada intEA-MLR em detrimento da binária. A representação inteira otimiza o entendimento dos dados, na medida em que as características a serem selecionadas são determinadas por valores inteiros reduzindo o tamanho do cromossomo utilizado no processo de busca. O intEA-MLR nesse contexto, se apresenta como uma forma alternativa de resolução de problemas de alta dimensionalidade em problemas de regressão. Como estudo de caso, utiliza-se três diferentes conjuntos de dados referente a problemas envolvendo determinação de propriedades de interesse em amostra de 1) Grãos de Trigo, 2) Comprimidos de remédio e 3) Petróleo. Tais conjuntos foram utilizados nas competições realizadas no International Diffuse Reflectance Conference (IDRC) (http://cnirs.clubexpress.com/content.aspx?page_id=22&club_ id=409746&module_id=190211), nos anos de 2008, 2012 e 2014, respectivamente. Os resultados mostraram que a solução proposta foi capaz de aprimorar as soluções obtidas quando comparadas com a implementação clássica que faz uso da codificação binária, tanto com modelos de predição mais acurados quanto com número reduzido de características. intEA-MLR também obteve resultados superiores aos dos vencedores das competições, chegando a obter soluções 91,17% melhores do que o vencedor da competição para o conjunto de dados de petróleo. Adicionalmente, os resultados também indicaram que o tempo de computação requerido pelo intEA-MLR é relativamente menor a medida em que um número maior de características estão disponíveis.eng
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESeng
dc.formatapplication/pdf*
dc.identifier.citationSOUSA, R. S. Algoritmo evolutivo com representação inteira para seleção de características. 2017. 64 f. Dissertação (Mestrado Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2017.eng
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/7395
dc.languageporeng
dc.publisherUniversidade Federal de Goiáseng
dc.publisher.countryBrasileng
dc.publisher.departmentInstituto de Informática - INF (RG)eng
dc.publisher.initialsUFGeng
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)eng
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectSeleção de característicaspor
dc.subjectComputação evolutivapor
dc.subjectCalibração multivariadapor
dc.subjectRegressão linear múltiplapor
dc.subjectFeatures selectioneng
dc.subjectEvolutionary computationeng
dc.subjectMultivariate calibrationeng
dc.subjectMultiple linear regressioneng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOeng
dc.titleAlgoritmo evolutivo com representação inteira para seleção de característicaseng
dc.title.alternativeEvolutionary algorithm using integer representation for feature selectioneng
dc.typeDissertaçãoeng

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Dissertação - Rhelcris Salvino de Sousa -2017.pdf
Tamanho:
11.71 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
2.11 KB
Formato:
Item-specific license agreed upon to submission
Descrição: