Acelerando florestas de decisão paralelas em processadores gráficos para a classificação de texto

dc.contributor.advisor1Martins, Wellington Santos
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/3041686206689904
dc.contributor.referee1Martins, Wellington Santos
dc.contributor.referee2Lima, Junio César de
dc.contributor.referee3Gaioso, Roussian Di Ramos Alves
dc.contributor.referee4Franco, Ricardo Augusto Pereira
dc.contributor.referee5Soares, Fabrízzio Alphonsus Alves de Melo Nunes
dc.creatorPires, Julio Cesar Batista
dc.creator.Latteshttp://lattes.cnpq.br/7687935305280678
dc.date.accessioned2024-03-08T13:39:58Z
dc.date.available2024-03-08T13:39:58Z
dc.date.issued2022-09-12
dc.description.abstractThe amount of readily available on-line text has grown exponentially, requiring efficient methods to automatically manage and sort data. Automatic text classification provides means to organize this data by associating documents with classes. However, the use of more data and sophisticated machine learning algorithms has demanded an increasingly computing power. In this work we accelerate a novel Random Forest-based classifier that has been shown to outperform state-of-art classifiers for textual data. The classifier is obtained by applying the boosting technique in bags of extremely randomized trees (forests) that are built in parallel to improve performance. Experimental results using standard textual datasets show that the GPUbased implementation is able to reduce the execution time by up to 20 times compared to an equivalent sequential implementation.eng
dc.description.provenanceSubmitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2024-02-26T20:13:57Z workflow start=Step: editstep - action:claimaction No. of bitstreams: 2 Tese - Julio Cesar Batista Pires - 2022.pdf: 1267875 bytes, checksum: 38993d7534a0c746ceebb2e57521451d (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceStep: editstep - action:editaction Rejected by Luciana Ferreira(lucgeral@gmail.com), reason: Acho que escolheu a coleção errada, observe que não consta no arquivo que é em ...Rede. Caso não consiga mudar a coleção me avise observe a citação, acho o final não é em Rede on 2024-02-27T15:36:08Z (GMT)en
dc.description.provenanceSubmitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2024-03-07T19:20:46Z workflow start=Step: editstep - action:claimaction No. of bitstreams: 2 Tese - Julio Cesar Batista Pires - 2022.pdf: 1267875 bytes, checksum: 38993d7534a0c746ceebb2e57521451d (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceStep: editstep - action:editaction Approved for entry into archive by Luciana Ferreira(lucgeral@gmail.com) on 2024-03-08T13:39:58Z (GMT)en
dc.description.provenanceMade available in DSpace on 2024-03-08T13:39:58Z (GMT). No. of bitstreams: 2 Tese - Julio Cesar Batista Pires - 2022.pdf: 1267875 bytes, checksum: 38993d7534a0c746ceebb2e57521451d (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2022-09-12en
dc.description.resumoA quantidade de texto on-line prontamente disponível cresceu exponencialmente, exigindo métodos eficientes para gerenciar e classificar dados automaticamente. A classificação automática de texto fornece meios para organizar esses dados associando documentos a classes. No entanto, o uso de mais dados e algoritmos sofisticados de aprendizado de máquina tem exigido um poder computacional cada vez maior. Neste trabalho, aceleramos um novo classificador baseado em Random Forest que demonstrou superar os classificadores de última geração para dados textuais. O classificador é obtido aplicando a técnica de boosting em bags de Extremely Randomized Trees (florestas) que são construídas em paralelo para melhorar o desempenho. Resultados experimentais usando conjuntos de dados textuais padrão mostram que a implementação baseada em GPU é capaz de reduzir o tempo de execução em até 20 vezes em comparação com uma implementação sequencial equivalente.
dc.description.sponsorshipOutro
dc.identifier.citationPIRES, J. C. B. Acelerando florestas de decisão paralelas em processadores gráficos para a classificação de texto. 2022. 91 f. Tese (Doutorado em Ciência Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2022.
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/13312
dc.languagepor
dc.publisherUniversidade Federal de Goiás
dc.publisher.countryBrasil
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.publisher.initialsUFG
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectGPUpor
dc.subjectFlorestas de decisãopor
dc.subjectTextopor
dc.subjectDecision forestseng
dc.subjectTexteng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleAcelerando florestas de decisão paralelas em processadores gráficos para a classificação de texto
dc.title.alternativeSpeeding up parallel decision forests on graphics processors for text classificationeng
dc.typeTese

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Tese - Julio Cesar Batista Pires - 2022.pdf
Tamanho:
1.21 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: