Redes neurais profundas com fusão de características na verificação biométrica pela voz

dc.contributor.advisor1Soares, Anderson da Silva
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/1096941114079527pt_BR
dc.contributor.referee1Galvão Filho, Arlindo Rodrigues
dc.contributor.referee2Soares, Anderson da Silva
dc.contributor.referee3Cândido Júnior, Arnaldo
dc.creatorVirgilli, Rafaello
dc.creator.Latteshttp://lattes.cnpq.br/0625389300835349pt_BR
dc.date.accessioned2022-05-17T15:32:02Z
dc.date.available2022-05-17T15:32:02Z
dc.date.issued2022-04-14
dc.description.abstractThe voice spoken by a person has a considerable variability which is due both to factors related to the speaker himself, such as accent, emotional state, and voice transition over age, as well as on factors external to the speaker, such as background noise, reverberation, capture equipment, and the digitalization process. Therefore, there are many challenges present in the task of biometric verification by voice. The use of neural networks to tackle this problem brought a big leap in performance when compared to previous techniques, and the main input format used is the spectrogram. For voices, the spectrogram can emphasize different characteristics depending on the generation parameters. The purpose of this work is to explore feature fusion in biometric verification by voice, particularly with by using dual spectrograms as input to the model. This approach is justified by the existence of works that also use it in other tasks related to voice and speech, such as keyword spotting, detection of voiced excerpts and musical classification. From the results, it was possible to validate the hypothesis that the use of dual spectrograms allows a performance gain in existing models, implying that certain types of spectrogram carry complementary information. The Equal Error Rate obtained was 1.61 for the model trained with dual spectrograms, which is 26% less than the EER rate of 2.22 obtained by the reference work [Chung et al. 2020]. Furthermore, the model proposed in this work has better performance for any decision threshold when compared to the reference work, either to minimize false positives or false negatives.eng
dc.description.provenanceSubmitted by Luciana Ferreira (lucgeral@gmail.com) on 2022-05-17T12:00:33Z No. of bitstreams: 2 Dissertação - Rafaello Virgilli - 2022.pdf: 10439802 bytes, checksum: 1e8334f1f1607f426639954751f1a50f (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceApproved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2022-05-17T15:32:01Z (GMT) No. of bitstreams: 2 Dissertação - Rafaello Virgilli - 2022.pdf: 10439802 bytes, checksum: 1e8334f1f1607f426639954751f1a50f (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceMade available in DSpace on 2022-05-17T15:32:02Z (GMT). No. of bitstreams: 2 Dissertação - Rafaello Virgilli - 2022.pdf: 10439802 bytes, checksum: 1e8334f1f1607f426639954751f1a50f (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2022-04-14en
dc.description.resumoA voz emitida por um falante possui grande variabilidade e isto se deve tanto a fatores relacionados ao próprio falante, como o sotaque, estado emocional e a mudança da voz com a idade, quanto a fatores externos, como ruídos de fundo ruídos de fundo, reverberação, equipamento de captura e formato de digitalização. Sendo assim, são muitos os desafios presentes na tarefa de reconhecimento biométrico por voz. O uso de redes neurais para atacar esse problema trouxe um grande salto em performance quando comparado a técnicas anteriores, e o principal formato de entrada utilizado é o espectrograma. Para vozes, o espectrograma pode enfatizar diferentes características a depender dos parâmetros de geração. Sendo assim, a proposta deste trabalho é explorar a fusão de características na verificação biométrica por voz, particularmente com o emprego de um espectrograma duplo como entrada do modelo. A escolha dessa técnica se justifica pela existência de trabalhos que também a utilizam em outras tarefas relacionadas à voz e fala, como detecção de palavra chave, detecção de trechos vozeados e classificação musical. A partir dos resultados foi possível validar a hipótese de que a utilização de espectrogramas duplos permite um ganho de performance nos modelos existentes, indicando que os tipos de espectrograma considerados portam informações complementares. A Equal Error Rate obtida foi de 1,61 para o modelo treinado com espectrogramas duplos, valor 26% menor que a taxa EER de 2,22, obtida no trabalho utilizado como referência neste texto [Chung et al. 2020]. Além disso, o modelo proposto possui melhor desempenho para qualquer escolha do limiar de decisão quando comparado com o trabalho de referência, tanto para minimizar falsos positivos como para minimizar falsos negativos.pt_BR
dc.description.sponsorshipFundação de Apoio à Pesquisapt_BR
dc.identifier.citationVIRGILLI, R. Redes neurais profundas com fusão de características na verificação biométrica pela voz. 2022. 63 f. Dissertação (Metrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2022.pt_BR
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/12071
dc.languageporpt_BR
dc.publisherUniversidade Federal de Goiáspt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto de Informática - INF (RG)pt_BR
dc.publisher.initialsUFGpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)pt_BR
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectVerificação de falantepor
dc.subjectEspectrograma multi resoluçãopor
dc.subjectBanda largapor
dc.subjectBanda estreitapor
dc.subjectSpeaker verificationeng
dc.subjectMultiresolution spectrogrameng
dc.subjectBroadbandeng
dc.subjectNarrowbandeng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.titleRedes neurais profundas com fusão de características na verificação biométrica pela vozpt_BR
dc.title.alternativeDeep neural networks with feature fusion in biometric verification by voiceeng
dc.typeDissertaçãopt_BR

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Dissertação - Rafaello Virgilli - 2022.pdf
Tamanho:
9.96 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: