A comparative study of text classification techniques for hate speech detection

dc.contributor.advisor1Rosa, Thierson Couto
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4414718560764818
dc.contributor.referee1Rosa, Thierson Couto
dc.contributor.referee2Moura, Edleno Silva de
dc.contributor.referee3Silva, Nádia Félix Felipe da
dc.creatorSilva, Rodolfo Costa Cezar da
dc.creator.Latteshttp://lattes.cnpq.br/3093346314417983
dc.date.accessioned2024-02-27T15:03:38Z
dc.date.available2024-02-27T15:03:38Z
dc.date.issued2022-01-27
dc.description.abstractThe dissemination of hate speech on the Internet, specially on social media platforms, has been a serious and recurrent problem. In the present study, we compare eleven methods for classifying hate speech, including traditional machine learning methods, neural network-based approaches and transformers, as well as their combination with eight techniques to address the class imbalance problem, which is a recurrent issue in hate speech classification. The data transformation techniques we investigated include data resampling techniques and a modification of a technique based on compound features (c_features).All models have been tested on seven datasets with varying specificity, following a rigorous experimentation protocol that includes cross-validation and the use of appropriate evaluation metrics, as well as validation of the results through appropriate statistical tests for multiple comparisons. To our knowledge, there is no broader comparative study in data enhancing techniques for hate speech detection, nor any work that combine data resampling techniques with transformers. Our extensive experimentation, based on over 2,900measurements, reveal that most data resampling techniques are ineffective to enhance the effectiveness of classifiers, with the exception of ROS which improves most classification methods, including the transformers. For the smallest dataset, ROS provided gains of 60.43% and 33.47% for BERT and RoBERTa, respectively. The experiments revealed that c_features improved all classification methods that they could be combined with. The compound features technique provided satisfactory gains of up to 7.8% for SVM. Finally,we investigate cost-effectiveness for a few of the best classification methods. This analysis provided confirmation that the traditional method Logistic Regression (LR) combined with the use of c_features can provide great effectiveness with low overhead in all datasets consideredeng
dc.description.provenanceSubmitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2024-02-23T17:17:52Z workflow start=Step: editstep - action:claimaction No. of bitstreams: 2 Dissertação - Rodolfo Costa Cezar da Silva - 2022.pdf: 4201587 bytes, checksum: b3a294341a032cfe63503a0de32e5fc6 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceStep: editstep - action:editaction Approved for entry into archive by Luciana Ferreira(lucgeral@gmail.com) on 2024-02-27T15:03:38Z (GMT)en
dc.description.provenanceMade available in DSpace on 2024-02-27T15:03:38Z (GMT). No. of bitstreams: 2 Dissertação - Rodolfo Costa Cezar da Silva - 2022.pdf: 4201587 bytes, checksum: b3a294341a032cfe63503a0de32e5fc6 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2022-01-27en
dc.description.resumoA disseminação do discurso de ódio na Internet, especialmente nas plataformas de redes sociais, tem sido um problema recorrente. No presente estudo, comparamos onze métodos de classificação para discurso de ódio, incluindo métodos tradicionais de aprendizado de máquina, abordagens baseadas em redes neurais e Transformers, assim como a combinação com oito técnicas para resolver o problema de desbalanceamento de classes,uma característica inerente à classificação de discurso de ódio. As técnicas de transformação de dados que investigamos incluem técnicas de reamostragem de dados e uma modificação de uma técnica baseada em features compostas (c_features). Todos os modelos foram testados em sete coleções de dados com especificidades variadas, seguindo um rigoroso protocolo de experimentação que inclui validação cruzada e o uso de métricas apropriadas, bem como a validação dos resultados por meio de testes estatísticos apropriados para comparações múltiplas. Até onde sabemos, não há estudo comparativo mais amplo em técnicas de expansão de dados para detecção de discurso de ódio, nem qualquer trabalho que combine técnicas de reamostragem de dados com Transformers. Nossa extensa experimentação, baseada em mais de 2.900 medições, revela que a maioria das técnicas de reamostragem de dados são ineficazes para aumentar a eficácia dos classificadores, com exceção da técnica de Random Oversampling (ROS) que melhora a maioria dos métodos de classificação, incluindo os Transformers. Para a menor coleção de dados, ROS proporcionou ganhos de 60,43% e 33,47% para BERT e RoBERTa,respectivamente. Os experimentos revelaram que a técnica de c_features melhorou todos os métodos de classificação com os quais ele pôde ser combinado. A técnica de features compostas proporcionou ganhos satisfatórios de até 7,8% para SVM. Finalmente, investigamos a relação custo-efetividade de alguns dos melhores métodos de classificação. Essa análise confirmou que o método tradicional de Regressão Logística (LR) combinado como uso de c_features proporciona grande eficácia com baixo overhead em todas as coleções de dados consideradas.
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPES
dc.identifier.citationSILVA, R. C. C. A comparative study of text classification techniques for hate speech detection. 2022. 72 f. Dissertação (Mestrado em Ciências Computação) - Instituto de Informática, Universidade Federal de Goiás, Goiânia, 2022.
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/13276
dc.languageeng
dc.publisherUniversidade Federal de Goiás
dc.publisher.countryBrasil
dc.publisher.departmentInstituto de Informática - INF (RMG)
dc.publisher.initialsUFG
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectClassificação de textopor
dc.subjectDesbalanceamento de classespor
dc.subjectDetecção de discurso de ódiopor
dc.subjectAprendizado de máquinapor
dc.subjectText classificationeng
dc.subjectClass imbalanceeng
dc.subjectHate speech detectioneng
dc.subjectMachine learningeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.titleA comparative study of text classification techniques for hate speech detection
dc.title.alternativeUm estudo comparativo de técnicas de classificação de texto para detecção de discurso de ódiopor
dc.typeDissertação

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Dissertação - Rodolfo Costa Cezar da Silva - 2022.pdf
Tamanho:
4.01 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: