Avaliação da sobreamostragem de dados de voz na classificação automática da doença de Parkinson

dc.contributor.advisor1Felix, Juliana Paula
dc.contributor.referee1Felix, Juliana Paula
dc.contributor.referee1Silva, Karina Rocha Gomes da
dc.contributor.referee1Salvini, Rogerio Lopes
dc.creatorSilva, Matheus Isac da
dc.date.accessioned2025-01-03T11:20:38Z
dc.date.available2025-01-03T11:20:38Z
dc.date.issued2024-12-19
dc.description.abstractThis study investigates a possible bias in oversampling via data windowing of vocal signals. Previous studies indicate that there is a bias for gait data when the data is treated independently, in addition there are statistical studies that show that data from the same individual carry similar information. An approach based on three databases containing vocal signals was used, two of which were unbalanced and one balanced. The K-Nearest Neighbors (KNN), Support Vector Machine (SVM), Linear Discriminant Analysis (LDA), Naive Bayes and Decision Tree (DT) algorithms were applied, with pre-processing using StandardScaler and PCA behavior analysis. Cross validation was done with k-fold Cross Validation, with k=5, in all 3 bases, adapted for scenarios with and without bias in the training data. Models evaluated without considering bias showed inflated performances, while the rigorous approach showed more modest results. It is concluded that samples from the same individual in training and testing can inflate the performance of models, and it is crucial to apply oversampling correctly to develop reliable models for diagnosing PD.
dc.description.resumoEste estudo investiga um possível viés na sobreamostragem via janelamento de dados dos sinais vocais. Estudos anteriores indicam que para dados de marcha há um viés quando tratados os dados de forma independentes, além disso há estudos estatísticos que mostram que os dados de um mesmo indivíduo carregam informações semelhantes. Foi utilizada uma abordagem baseada em três bases de dados contendo sinais vocais, sendo duas desbalanceadas e uma balanceada. Os algoritmos K-Nearest Neighbors (KNN), Support Vector Machine (SVM), Linear Discriminant Analysis (LDA), Naive Bayes e Decision Tree (DT) foram aplicados, com pré-processamento utilizando o StandardScaler e análise do comportamento do PCA. A validação cruzada foi feita com k-fold Cross Validation, com k=5, em todas as 3 bases, adaptada para cenários com e sem viés nos dados de treinamento. Os modelos avaliados sem considerar o viés apresentaram desempenhos inflacionados, enquanto a abordagem rigorosa mostrou resultados mais modestos. Conclui-se que amostras do mesmo indivíduo em treinamento e teste podem inflar o desempenho dos modelos, sendo crucial aplicar sobreamostragem corretamente para desenvolver modelos confiáveis para o diagnóstico de DP.
dc.identifier.citationSILVA, Matheus Isac da. Avaliação da sobreamostragem de dados de voz na classificação automática da doença de Parkinson. 2024. 20 f. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) – Escola de Engenharia Elétrica, Mecânica e de Computação, Universidade Federal de Goiás, Goiânia, 2024.
dc.identifier.urihttp://repositorio.bc.ufg.br//handle/ri/26135
dc.language.isopor
dc.publisherUniversidade Federal de Goiás
dc.publisher.countryBrasil
dc.publisher.courseEngenharia de Computação (RMG)
dc.publisher.departmentEscola de Engenharia Elétrica, Mecânica e de Computação - EMC (RMG)
dc.publisher.initialsUFG
dc.rightsAcesso Aberto
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subjectDoença de Parkinson
dc.subjectAprendizado de máquina
dc.subjectDiagnóstico
dc.subjectParkinson’s disease
dc.subjectMachine learning
dc.subjectDiagnosis
dc.titleAvaliação da sobreamostragem de dados de voz na classificação automática da doença de Parkinson
dc.typeTrabalho de conclusão de curso de graduação (TCCG)

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TCCG - Engenharia de Computação - Matheus Isac da Silva - 2024.pdf
Tamanho:
2.98 MB
Formato:
Adobe Portable Document Format

Licença do Pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: