Variações do método kNN e suas aplicações na classificação automática de textos

SANTOS, Fernando Chagas

Variações do método kNN e suas aplicações na classificação automática de textos

dc.contributor.advisor-co1	ROSA, Thierson Couto
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/4414718560764818	por
dc.contributor.advisor1	Carvalho, Cedric Luiz de
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4090131106212286	por
dc.creator	SANTOS, Fernando Chagas
dc.creator.Lattes	http://lattes.cnpq.br/9079302858133835	por
dc.date.accessioned	2014-07-29T14:57:46Z
dc.date.available	2010-09-09
dc.date.issued	2010-10-10
dc.description.abstract	Most research on Automatic Text Categorization (ATC) seeks to improve the classifier performance (effective or efficient) responsible for automatically classifying a document d not yet rated. The k nearest neighbors (kNN) is simpler and it s one of automatic classification methods more effective as proposed. In this paper we proposed two kNN variations, Inverse kNN (kINN) and Symmetric kNN (kSNN) with the aim of improving the effectiveness of ACT. The kNN, kINN and kSNN methods were applied in Reuters, 20ng and Ohsumed collections and the results showed that kINN and kSNN methods were more effective than kNN method in Reuters and Ohsumed collections. kINN and kSNN methods were as effective as kNN method in 20NG collection. In addition, the performance achieved by kNN method is more stable than kINN and kSNN methods when the value k change. A parallel study was conducted to generate new features in documents from the similarity matrices resulting from the selection criteria for the best results obtained in kNN, kINN and kSNN methods. The SVM (considered a state of the art method) was applied in Reuters, 20NG and Ohsumed collections - before and after applying this approach to generate features in these documents and the results showed statistically significant gains for the original collection.	eng
dc.description.resumo	Grande parte das pesquisas relacionadas com a classificação automática de textos (CAT) tem procurado melhorar o desempenho (eficácia ou eficiência) do classificador responsável por classificar automaticamente um documento d, ainda não classificado. O método dos k vizinhos mais próximos (kNN, do inglês k nearest neighbors) é um dos métodos de classificação automática mais simples e eficazes já propostos. Neste trabalho foram propostas duas variações do método kNN, o kNN invertido (kINN) e o kNN simétrico (kSNN) com o objetivo de melhorar a eficácia da CAT. Os métodos kNN, kINN e kSNN foram aplicados nas coleções Reuters, 20NG e Ohsumed e os resultados obtidos demonstraram que os métodos kINN e kSNN tiveram eficácia superior ao método kNN ao serem aplicados nas coleções Reuters e Ohsumed e eficácia equivalente ao método kNN ao serem aplicados na coleção 20NG. Além disso, nessas coleções foi possível verificar que o desempenho obtido pelo método kNN é mais estável a variação do valor k do que os desempenhos obtidos pelos métodos kINN e kSNN. Um estudo paralelo foi realizado para gerar novas características em documentos a partir das matrizes de similaridade resultantes dos critérios de seleção dos melhores resultados obtidos na avaliação dos métodos kNN, kINN e kSNN. O método SVM, considerado um método de classificação do estado da arte em relação à eficácia, foi aplicado nas coleções Reuters, 20NG e Ohsumed - antes e após aplicar a abordagem de geração de características nesses documentos e os resultados obtidos demonstraram ganhos estatisticamente significativos em relação à coleção original.	por
dc.format	application/pdf	por
dc.identifier.citation	SANTOS, Fernando Chagas. kNN Method Variations and its applications in Text Classification. 2010. 96 f. Dissertação (Mestrado em Ciências Exatas e da Terra - Ciências da Computação) - Universidade Federal de Goiás, Goiânia, 2010.	por
dc.identifier.uri	http://repositorio.bc.ufg.br/tede/handle/tde/499
dc.language	por	por
dc.publisher	Universidade Federal de Goiás	por
dc.publisher.country	BR	por
dc.publisher.department	Ciências Exatas e da Terra - Ciências da Computação	por
dc.publisher.initials	UFG	por
dc.publisher.program	Mestrado em Ciência da Computação	por
dc.rights	Acesso Aberto	por
dc.subject	Classificação de Textos	por
dc.subject	Aprendizagem de Máquina	por
dc.subject	Método kNN	por
dc.subject	Critérios de Seleção	por
dc.subject	Geração de Características	por
dc.subject	Geração de Termos	por
dc.subject	Text Classification	eng
dc.subject	Machine Learning	eng
dc.subject	kNN Method	eng
dc.subject	Feature Selection	eng
dc.subject	Feature Construction	eng
dc.subject	1.Classificação de textos 2.Aprendizagem de máquina 3.Método kNN 4.Critérios de seleção 5.Geração de características 6.Geração de termos	por
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	por
dc.thumbnail.url	http://repositorio.bc.ufg.br/TEDE/retrieve/2971/dissertacao-fernando.pdf.jpg	*
dc.title	Variações do método kNN e suas aplicações na classificação automática de textos	por
dc.title.alternative	kNN Method Variations and its applications in Text Classification	eng
dc.type	Dissertação	por

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: dissertacao-fernando.pdf
Tamanho:: 661.63 KB
Formato:: Adobe Portable Document Format

Baixar

Coleções

Mestrado em Ciência da Computação (INF)