Classificação automática de documentos: seleção customizada do classificador

dc.contributor.advisor1Martins, Wellington Santos
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/3041686206689904pt_BR
dc.contributor.referee1Martins, Wellington Santos
dc.contributor.referee2Rosa, Thierson Couto
dc.contributor.referee3Sousa, Daniel Xavier de
dc.creatorSilva, Paulo Henrique da
dc.creator.Latteshttp://lattes.cnpq.br/1073733341962654pt_BR
dc.date.accessioned2021-03-18T15:33:28Z
dc.date.available2021-03-18T15:33:28Z
dc.date.issued2020-11-23
dc.description.abstractThe recent increase in digitally stored data has spurred the development of methods to organize and extract relevant knowledge from this large volume of data. Automatic document classification (ADC) is one such method. Considered one of the most relevant and challenging tasks in the context of information retrieval, due to the high dimensionality and sparse data, it uses machine learning techniques to group similar documents into classes. Recent works advocate the use of multiple classifier systems (MCS) to improve the accuracy of ADC, through the combination of a set of classifiers to obtain better results in relation to a single classifier. One of the most promising approaches to MCS is dynamic selection (DS), where the base classifiers are selected in real time, according to each new consultation document (test) to be classified. This work proposes the customized selection of the classification method performed in consultation time (test). Only the most competent classifier, or the most competent set of classifiers, is selected to predict the label of each consultation document. In addition, the paper presents the exploration of parallelism to speed up the ADC task. Experimental results, using standardized databases, show competitive and promising results in relation to the baselines used. New opportunities for exploring parallelism are also presented as future work.eng
dc.description.provenanceSubmitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2021-03-17T18:12:48Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Paulo Henrique da Silva - 2020.pdf: 1479592 bytes, checksum: 74aee2d264041b5eac7a41dd31d2dd57 (MD5)en
dc.description.provenanceApproved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2021-03-18T15:33:28Z (GMT) No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Paulo Henrique da Silva - 2020.pdf: 1479592 bytes, checksum: 74aee2d264041b5eac7a41dd31d2dd57 (MD5)en
dc.description.provenanceMade available in DSpace on 2021-03-18T15:33:28Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Paulo Henrique da Silva - 2020.pdf: 1479592 bytes, checksum: 74aee2d264041b5eac7a41dd31d2dd57 (MD5) Previous issue date: 2020-11-23en
dc.description.resumoO recente aumento nos dados armazenados digitalmente estimulou o desenvolvimento de métodos para organizar e extrair conhecimento relevante desse grande volume de dados. A classificação automática de documentos (ADC) é um desses métodos. Considerada uma das tarefas mais relevantes e desafiadoras no contexto de recuperação de informações, devido a alta dimensionalidade e esparsidade dos dados, utiliza técnicas de aprendizado de máquina para agrupar documentos similares em classes. Trabalhos recentes defendem o uso de sistemas de múltiplos classificadores (MCS) para aumentar a precisão da ADC, através da combinação de um conjunto de classificadores para obter melhores resultados em relação a um único classificador. Uma das abordagens mais promissoras de MCS é a seleção dinâmica (DS), onde os classificadores base são selecionados em tempo real, de acordo com cada novo documento de consulta (teste) a ser classificado. Este trabalho propõe a seleção customizada de método de classificação realizada em tempo de consulta (teste). Somente o classificador mais competente, ou o conjunto de classificadores mais competentes, é selecionado para fazer a predição do rótulo de cada documento de consulta. Alem disso, o trabalho apresenta a exploração de paralelismo para acelerar a tarefa de ADC. Resultados experimentais, utilizando bases de dados padronizadas, mostram resultados competitivos e promissores em relação às baselines usadas. Novas oportunidades para exploração de paralelismo também são apresentadas como trabalhos futuros.pt_BR
dc.description.sponsorshipOutropt_BR
dc.identifier.citationSILVA, P. H. Classificação automática de documentos: seleção customizada do classificador. 2020. 80 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020.pt_BR
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/11175
dc.languageporpt_BR
dc.publisherUniversidade Federal de Goiáspt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto de Informática - INF (RG)pt_BR
dc.publisher.initialsUFGpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)pt_BR
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectClassificação automática de documentospor
dc.subjectConjunto de classificadorespor
dc.subjectSeleção dinâmica do classificadorpor
dc.subjectProgramação paralelapor
dc.subjectAutomatic document classificationeng
dc.subjectEnsemble of classifierseng
dc.subjectDynamic classifier selectioneng
dc.subjectParallel programmingeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpt_BR
dc.titleClassificação automática de documentos: seleção customizada do classificadorpt_BR
dc.title.alternativeAutomatic document classification: customized classifier selectioneng
dc.typeDissertaçãopt_BR

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Dissertação - Paulo Henrique da Silva - 2020.pdf
Tamanho:
1.41 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: