Acelerando florestas de decisão paralelas em processadores gráficos para a classificação de texto

Pires, Julio Cesar Batista

Acelerando florestas de decisão paralelas em processadores gráficos para a classificação de texto

dc.contributor.advisor1	Martins, Wellington Santos
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/3041686206689904
dc.contributor.referee1	Martins, Wellington Santos
dc.contributor.referee2	Lima, Junio César de
dc.contributor.referee3	Gaioso, Roussian Di Ramos Alves
dc.contributor.referee4	Franco, Ricardo Augusto Pereira
dc.contributor.referee5	Soares, Fabrízzio Alphonsus Alves de Melo Nunes
dc.creator	Pires, Julio Cesar Batista
dc.creator.Lattes	http://lattes.cnpq.br/7687935305280678
dc.date.accessioned	2024-03-08T13:39:58Z
dc.date.available	2024-03-08T13:39:58Z
dc.date.issued	2022-09-12
dc.description.abstract	The amount of readily available on-line text has grown exponentially, requiring efficient methods to automatically manage and sort data. Automatic text classification provides means to organize this data by associating documents with classes. However, the use of more data and sophisticated machine learning algorithms has demanded an increasingly computing power. In this work we accelerate a novel Random Forest-based classifier that has been shown to outperform state-of-art classifiers for textual data. The classifier is obtained by applying the boosting technique in bags of extremely randomized trees (forests) that are built in parallel to improve performance. Experimental results using standard textual datasets show that the GPUbased implementation is able to reduce the execution time by up to 20 times compared to an equivalent sequential implementation.	eng
dc.description.resumo	A quantidade de texto on-line prontamente disponível cresceu exponencialmente, exigindo métodos eficientes para gerenciar e classificar dados automaticamente. A classificação automática de texto fornece meios para organizar esses dados associando documentos a classes. No entanto, o uso de mais dados e algoritmos sofisticados de aprendizado de máquina tem exigido um poder computacional cada vez maior. Neste trabalho, aceleramos um novo classificador baseado em Random Forest que demonstrou superar os classificadores de última geração para dados textuais. O classificador é obtido aplicando a técnica de boosting em bags de Extremely Randomized Trees (florestas) que são construídas em paralelo para melhorar o desempenho. Resultados experimentais usando conjuntos de dados textuais padrão mostram que a implementação baseada em GPU é capaz de reduzir o tempo de execução em até 20 vezes em comparação com uma implementação sequencial equivalente.
dc.description.sponsorship	Outro
dc.identifier.citation	PIRES, J. C. B. Acelerando florestas de decisão paralelas em processadores gráficos para a classificação de texto. 2022. 91 f. Tese (Doutorado em Ciência Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2022.
dc.identifier.uri	http://repositorio.bc.ufg.br/tede/handle/tede/13312
dc.language	por
dc.publisher	Universidade Federal de Goiás
dc.publisher.country	Brasil
dc.publisher.department	Instituto de Informática - INF (RMG)
dc.publisher.initials	UFG
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação (INF)
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	en
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	GPU	por
dc.subject	Florestas de decisão	por
dc.subject	Texto	por
dc.subject	Decision forests	eng
dc.subject	Text	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.title	Acelerando florestas de decisão paralelas em processadores gráficos para a classificação de texto
dc.title.alternative	Speeding up parallel decision forests on graphics processors for text classification	eng
dc.type	Tese

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Tese - Julio Cesar Batista Pires - 2022.pdf
Tamanho:: 1.21 MB
Formato:: Adobe Portable Document Format

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Doutorado em Ciência da Computação