Classificação automática de documentos: seleção customizada do classificador
dc.contributor.advisor1 | Martins, Wellington Santos | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/3041686206689904 | pt_BR |
dc.contributor.referee1 | Martins, Wellington Santos | |
dc.contributor.referee2 | Rosa, Thierson Couto | |
dc.contributor.referee3 | Sousa, Daniel Xavier de | |
dc.creator | Silva, Paulo Henrique da | |
dc.creator.Lattes | http://lattes.cnpq.br/1073733341962654 | pt_BR |
dc.date.accessioned | 2021-03-18T15:33:28Z | |
dc.date.available | 2021-03-18T15:33:28Z | |
dc.date.issued | 2020-11-23 | |
dc.description.abstract | The recent increase in digitally stored data has spurred the development of methods to organize and extract relevant knowledge from this large volume of data. Automatic document classification (ADC) is one such method. Considered one of the most relevant and challenging tasks in the context of information retrieval, due to the high dimensionality and sparse data, it uses machine learning techniques to group similar documents into classes. Recent works advocate the use of multiple classifier systems (MCS) to improve the accuracy of ADC, through the combination of a set of classifiers to obtain better results in relation to a single classifier. One of the most promising approaches to MCS is dynamic selection (DS), where the base classifiers are selected in real time, according to each new consultation document (test) to be classified. This work proposes the customized selection of the classification method performed in consultation time (test). Only the most competent classifier, or the most competent set of classifiers, is selected to predict the label of each consultation document. In addition, the paper presents the exploration of parallelism to speed up the ADC task. Experimental results, using standardized databases, show competitive and promising results in relation to the baselines used. New opportunities for exploring parallelism are also presented as future work. | eng |
dc.description.provenance | Submitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2021-03-17T18:12:48Z No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Paulo Henrique da Silva - 2020.pdf: 1479592 bytes, checksum: 74aee2d264041b5eac7a41dd31d2dd57 (MD5) | en |
dc.description.provenance | Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2021-03-18T15:33:28Z (GMT) No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Paulo Henrique da Silva - 2020.pdf: 1479592 bytes, checksum: 74aee2d264041b5eac7a41dd31d2dd57 (MD5) | en |
dc.description.provenance | Made available in DSpace on 2021-03-18T15:33:28Z (GMT). No. of bitstreams: 2 license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Dissertação - Paulo Henrique da Silva - 2020.pdf: 1479592 bytes, checksum: 74aee2d264041b5eac7a41dd31d2dd57 (MD5) Previous issue date: 2020-11-23 | en |
dc.description.resumo | O recente aumento nos dados armazenados digitalmente estimulou o desenvolvimento de métodos para organizar e extrair conhecimento relevante desse grande volume de dados. A classificação automática de documentos (ADC) é um desses métodos. Considerada uma das tarefas mais relevantes e desafiadoras no contexto de recuperação de informações, devido a alta dimensionalidade e esparsidade dos dados, utiliza técnicas de aprendizado de máquina para agrupar documentos similares em classes. Trabalhos recentes defendem o uso de sistemas de múltiplos classificadores (MCS) para aumentar a precisão da ADC, através da combinação de um conjunto de classificadores para obter melhores resultados em relação a um único classificador. Uma das abordagens mais promissoras de MCS é a seleção dinâmica (DS), onde os classificadores base são selecionados em tempo real, de acordo com cada novo documento de consulta (teste) a ser classificado. Este trabalho propõe a seleção customizada de método de classificação realizada em tempo de consulta (teste). Somente o classificador mais competente, ou o conjunto de classificadores mais competentes, é selecionado para fazer a predição do rótulo de cada documento de consulta. Alem disso, o trabalho apresenta a exploração de paralelismo para acelerar a tarefa de ADC. Resultados experimentais, utilizando bases de dados padronizadas, mostram resultados competitivos e promissores em relação às baselines usadas. Novas oportunidades para exploração de paralelismo também são apresentadas como trabalhos futuros. | pt_BR |
dc.description.sponsorship | Outro | pt_BR |
dc.identifier.citation | SILVA, P. H. Classificação automática de documentos: seleção customizada do classificador. 2020. 80 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2020. | pt_BR |
dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/11175 | |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Goiás | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Instituto de Informática - INF (RG) | pt_BR |
dc.publisher.initials | UFG | pt_BR |
dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Classificação automática de documentos | por |
dc.subject | Conjunto de classificadores | por |
dc.subject | Seleção dinâmica do classificador | por |
dc.subject | Programação paralela | por |
dc.subject | Automatic document classification | eng |
dc.subject | Ensemble of classifiers | eng |
dc.subject | Dynamic classifier selection | eng |
dc.subject | Parallel programming | eng |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO | pt_BR |
dc.title | Classificação automática de documentos: seleção customizada do classificador | pt_BR |
dc.title.alternative | Automatic document classification: customized classifier selection | eng |
dc.type | Dissertação | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Dissertação - Paulo Henrique da Silva - 2020.pdf
- Tamanho:
- 1.41 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: