Avaliação da sobreamostragem de dados de voz na classificação automática da doença de Parkinson
dc.contributor.advisor1 | Felix, Juliana Paula | |
dc.contributor.referee1 | Felix, Juliana Paula | |
dc.contributor.referee1 | Silva, Karina Rocha Gomes da | |
dc.contributor.referee1 | Salvini, Rogerio Lopes | |
dc.creator | Silva, Matheus Isac da | |
dc.date.accessioned | 2025-01-03T11:20:38Z | |
dc.date.available | 2025-01-03T11:20:38Z | |
dc.date.issued | 2024-12-19 | |
dc.description.abstract | This study investigates a possible bias in oversampling via data windowing of vocal signals. Previous studies indicate that there is a bias for gait data when the data is treated independently, in addition there are statistical studies that show that data from the same individual carry similar information. An approach based on three databases containing vocal signals was used, two of which were unbalanced and one balanced. The K-Nearest Neighbors (KNN), Support Vector Machine (SVM), Linear Discriminant Analysis (LDA), Naive Bayes and Decision Tree (DT) algorithms were applied, with pre-processing using StandardScaler and PCA behavior analysis. Cross validation was done with k-fold Cross Validation, with k=5, in all 3 bases, adapted for scenarios with and without bias in the training data. Models evaluated without considering bias showed inflated performances, while the rigorous approach showed more modest results. It is concluded that samples from the same individual in training and testing can inflate the performance of models, and it is crucial to apply oversampling correctly to develop reliable models for diagnosing PD. | |
dc.description.resumo | Este estudo investiga um possível viés na sobreamostragem via janelamento de dados dos sinais vocais. Estudos anteriores indicam que para dados de marcha há um viés quando tratados os dados de forma independentes, além disso há estudos estatísticos que mostram que os dados de um mesmo indivíduo carregam informações semelhantes. Foi utilizada uma abordagem baseada em três bases de dados contendo sinais vocais, sendo duas desbalanceadas e uma balanceada. Os algoritmos K-Nearest Neighbors (KNN), Support Vector Machine (SVM), Linear Discriminant Analysis (LDA), Naive Bayes e Decision Tree (DT) foram aplicados, com pré-processamento utilizando o StandardScaler e análise do comportamento do PCA. A validação cruzada foi feita com k-fold Cross Validation, com k=5, em todas as 3 bases, adaptada para cenários com e sem viés nos dados de treinamento. Os modelos avaliados sem considerar o viés apresentaram desempenhos inflacionados, enquanto a abordagem rigorosa mostrou resultados mais modestos. Conclui-se que amostras do mesmo indivíduo em treinamento e teste podem inflar o desempenho dos modelos, sendo crucial aplicar sobreamostragem corretamente para desenvolver modelos confiáveis para o diagnóstico de DP. | |
dc.identifier.citation | SILVA, Matheus Isac da. Avaliação da sobreamostragem de dados de voz na classificação automática da doença de Parkinson. 2024. 20 f. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) – Escola de Engenharia Elétrica, Mecânica e de Computação, Universidade Federal de Goiás, Goiânia, 2024. | |
dc.identifier.uri | http://repositorio.bc.ufg.br//handle/ri/26135 | |
dc.language.iso | por | |
dc.publisher | Universidade Federal de Goiás | |
dc.publisher.country | Brasil | |
dc.publisher.course | Engenharia de Computação (RMG) | |
dc.publisher.department | Escola de Engenharia Elétrica, Mecânica e de Computação - EMC (RMG) | |
dc.publisher.initials | UFG | |
dc.rights | Acesso Aberto | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject | Doença de Parkinson | |
dc.subject | Aprendizado de máquina | |
dc.subject | Diagnóstico | |
dc.subject | Parkinson’s disease | |
dc.subject | Machine learning | |
dc.subject | Diagnosis | |
dc.title | Avaliação da sobreamostragem de dados de voz na classificação automática da doença de Parkinson | |
dc.type | Trabalho de conclusão de curso de graduação (TCCG) |
Arquivos
Pacote Original
1 - 1 de 1
Carregando...
- Nome:
- TCCG - Engenharia de Computação - Matheus Isac da Silva - 2024.pdf
- Tamanho:
- 2.98 MB
- Formato:
- Adobe Portable Document Format
Licença do Pacote
1 - 1 de 1
Carregando...
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: