Uso de Seleção de Características da Wikipedia na Classificação Automática de Textos.

Alvarenga, Leonel Diógenes Carvalhaes

Uso de Seleção de Características da Wikipedia na Classificação Automática de Textos.

dc.contributor.advisor1	Rosa, Thierson Couto
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4414718560764818	por
dc.creator	Alvarenga, Leonel Diógenes Carvalhaes
dc.creator.Lattes	http://lattes.cnpq.br/9542541522845372	por
dc.date.accessioned	2014-07-31T14:43:10Z
dc.date.issued	2012-09-20
dc.description.abstract	The traditional methods of text classification typically represent documents only as a set of words, also known as "Bag of Words"(BOW). Several studies have shown good results on making use of thesauri and encyclopedias as external information sources, aiming to expand the BOW representation by the identification of synonymy and hyponymy relationships between present terms in a document collection. However, the expansion process may introduce terms that lead to an erroneous classification. In this paper, we propose the use of feature selection measures in order to select features extracted from Wikipedia in order to improve the efectiveness of the expansion process. The study also proposes a feature selection measure called Tendency Factor to One Category (TF1C), so that the experiments showed that this measure proves to be competitive with the other measures Information Gain, Gain Ratio and Chisquared, in the process, delivering the best gains in microF1 and macroF1, in most experiments. The full use of features selected in this process showed to be more stable in assisting the classification, while it showed lower performance on restricting its insertion only to documents of the classes in which these features are well punctuated by the selection measures. When applied in the Reuters-21578, Ohsumed first - 20000 and 20Newsgroups collections, our approach to feature selection allowed the reduction of noise insertion inherent in the expansion process, and improved the results of use hyponyms, and demonstrated that the synonym relationship from Wikipedia can also be used in the document expansion, increasing the efectiveness of the automatic text classification.	eng
dc.description.resumo	Os métodos tradicionais de classificação de textos normalmente representam documentos apenas como um conjunto de palavras, também conhecido como BOW (do inglês, Bag of Words). Vários estudos têm mostrado bons resultados ao utilizar-se de tesauros e enciclopédias como fontes externas de informações, objetivando expandir a representação BOW a partir da identificação de relacionamentos de sinonômia e hiponômia entre os termos presentes em uma coleção de documentos. Todavia, o processo de expansão pode introduzir termos que conduzam a uma classificação errônea do documento. No presente trabalho, propõe-se a aplicação de medidas de avaliação de termos para a seleção de características extraídas da Wikipédia, com o objetivo de melhorar a eficácia de sua utilização durante o processo de expansão de documentos. O estudo também propõe uma medida de seleção de características denominada Fator de Tendência a uma Categoria (FT1C), de modo que os experimentos realizados demonstraram que esta medida apresenta desempenho competitivo com as medidas Information Gain, Gain Ratio e Chi-squared, neste processo, apresentando os melhores ganhos de microF1 e macroF1, na maioria dos experimentos realizados. O uso integral das características selecionadas neste processo, demonstrou auxiliar a classificação de forma mais estável, ao passo que apresentou menor desempenho ao se restringir sua inserção somente aos documentos das classes em que estas características são bem pontuadas pelas medidas de seleção. Ao ser aplicada nas coleções Reuters-21578, Ohsumed rst-20000 e 20Newsgroups, a abordagem com seleção de características permitiu a redução da inserção de ruídos inerentes do processo de expansão e potencializou o uso de hipônimos, assim como demonstrou que as relações de sinonômia da Wikipédia também podem ser utilizadas na expansão de documentos, elevando a eficácia da classificação automática de textos.	por
dc.description.sponsorship	Fundação de Amparo à Pesquisa do Estado de Goiás - FAPEG	por
dc.format	application/pdf	*
dc.identifier.citation	ALVARENGA, Leonel Diógenes Carvalhaes. Uso de Seleção de Características da Wikipedia na Classificação Automática de Textos. 2012. 114 f. - Dissertação (Mestrado em) - Universidade Federal de Goiás, Goiânia, 2012	por
dc.identifier.uri	http://repositorio.bc.ufg.br/tede/handle/tde/2870
dc.language	por	por
dc.publisher	Universidade Federal de Goiás	por
dc.publisher.country	Brasil	por
dc.publisher.department	Instituto de Informática (INF)	por
dc.publisher.initials	UFG	por
dc.publisher.program	Programa de Pós Graduação em Ciência da Computação (INF)	por
dc.relation.references	[1] Amati, G.; D'Aloisi, D.; Giannini, V.; Ubaldini, F. A Framework for Filtering News and Managing Distributed Data. Journal Of Universal Computer Science, 3(8):1007{1021, 1997. [2] Apt e, C.; Damerau, F.; Weiss, S. M. Automated learning of decision rules for text categorization. ACM Transactions on Information Systems, 12(3):233{251, July 1994. [3] Baeza-Yates, R.; Ribeiro-Neto, B. Modern information retrieval. ACM Press, New York, New York, USA, 1999. [4] Bekkerman, R.; Allan, J. Using Bigrams in Text Categorization. Department of Computer Science, University of Massachusetts, Amherst, 1003(IR-408):1{10, 2003. [5] Bekkerman, R.; El-Yaniv, R.; Tishby, N.; Winter, Y. Distributional word clusters vs. words for text categorization. The Journal of Machine Learning Research, 3:1183{1208, 2003. [6] Burges, C. J. C. A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery, 2(2):121{167, 1998. [7] Carmel, D.; Roitman, H.; Zwerdling, N. Enhancing cluster labeling using wikipedia. Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval - SIGIR '09, p. 139, 2009. [8] Chandrinos, K. V.; Androutsopoulos, I.; Paliouras, G.; Spyropoulos, C. D. Automatic Web Rating: Filtering Obscene Content on the Web. In: Borbinha, J. L.; Baker, T., editors, Proceedings of ECDL00 4th European Conference on Re- search and Advanced Technology for Digital Libraries, p. 403{406. Springer Verlag, Heidelberg, DE, 2000. [9] Cheng, H.; Yan, X.; Han, J.; Hsu, C.-W. Discriminative Frequent Pattern Analysis for E ective Classi cation. 2007 IEEE 23rd International Conference on Data Engineering, p. 716{725, 2007.	por
dc.rights	Acesso aberto	por
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject	Recuperação de informação	por
dc.subject	classificaçao de textos	por
dc.subject	seleçao de caracteristicas	por
dc.subject	expansao de documentos	por
dc.subject	aprendizado de maquina	por
dc.subject	Information retrieval	eng
dc.subject	text classification	eng
dc.subject	feature selection	eng
dc.subject	document expansion	eng
dc.subject	machine learning	eng
dc.subject.cnpq	CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO	por
dc.thumbnail.url	http://repositorio.bc.ufg.br/tede/retrieve/5859/uso_de_selecao_de_caracteristicas_da_wikipedia_na_classificacao_automatica_de_textos.pdf.jpg	*
dc.title	Uso de Seleção de Características da Wikipedia na Classificação Automática de Textos.	por
dc.title.alternative	Selection of Wikipedia features for automatic text classification	eng
dc.type	Dissertação	por

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: uso_de_selecao_de_caracteristicas_da_wikipedia_na_classificacao_automatica_de_textos.pdf
Tamanho:: 1.38 MB
Formato:: Adobe Portable Document Format
Descrição:: Dissertação - PPGCCOM/RG - Leonel Diogenes Carvalhaes Alvarenga

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 2.09 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Mestrado em Ciência da Computação (INF)