Redes neurais profundas com fusão de características na verificação biométrica pela voz

Virgilli, Rafaello

Redes neurais profundas com fusão de características na verificação biométrica pela voz

dc.contributor.advisor1	Soares, Anderson da Silva
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/1096941114079527	pt_BR
dc.contributor.referee1	Galvão Filho, Arlindo Rodrigues
dc.contributor.referee2	Soares, Anderson da Silva
dc.contributor.referee3	Cândido Júnior, Arnaldo
dc.creator	Virgilli, Rafaello
dc.creator.Lattes	http://lattes.cnpq.br/0625389300835349	pt_BR
dc.date.accessioned	2022-05-17T15:32:02Z
dc.date.available	2022-05-17T15:32:02Z
dc.date.issued	2022-04-14
dc.description.abstract	The voice spoken by a person has a considerable variability which is due both to factors related to the speaker himself, such as accent, emotional state, and voice transition over age, as well as on factors external to the speaker, such as background noise, reverberation, capture equipment, and the digitalization process. Therefore, there are many challenges present in the task of biometric verification by voice. The use of neural networks to tackle this problem brought a big leap in performance when compared to previous techniques, and the main input format used is the spectrogram. For voices, the spectrogram can emphasize different characteristics depending on the generation parameters. The purpose of this work is to explore feature fusion in biometric verification by voice, particularly with by using dual spectrograms as input to the model. This approach is justified by the existence of works that also use it in other tasks related to voice and speech, such as keyword spotting, detection of voiced excerpts and musical classification. From the results, it was possible to validate the hypothesis that the use of dual spectrograms allows a performance gain in existing models, implying that certain types of spectrogram carry complementary information. The Equal Error Rate obtained was 1.61 for the model trained with dual spectrograms, which is 26% less than the EER rate of 2.22 obtained by the reference work [Chung et al. 2020]. Furthermore, the model proposed in this work has better performance for any decision threshold when compared to the reference work, either to minimize false positives or false negatives.	eng
dc.description.provenance	Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2022-05-17T12:00:33Z No. of bitstreams: 2 Dissertação - Rafaello Virgilli - 2022.pdf: 10439802 bytes, checksum: 1e8334f1f1607f426639954751f1a50f (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)	en
dc.description.provenance	Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2022-05-17T15:32:01Z (GMT) No. of bitstreams: 2 Dissertação - Rafaello Virgilli - 2022.pdf: 10439802 bytes, checksum: 1e8334f1f1607f426639954751f1a50f (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)	en
dc.description.provenance	Made available in DSpace on 2022-05-17T15:32:02Z (GMT). No. of bitstreams: 2 Dissertação - Rafaello Virgilli - 2022.pdf: 10439802 bytes, checksum: 1e8334f1f1607f426639954751f1a50f (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2022-04-14	en
dc.description.resumo	A voz emitida por um falante possui grande variabilidade e isto se deve tanto a fatores relacionados ao próprio falante, como o sotaque, estado emocional e a mudança da voz com a idade, quanto a fatores externos, como ruídos de fundo ruídos de fundo, reverberação, equipamento de captura e formato de digitalização. Sendo assim, são muitos os desafios presentes na tarefa de reconhecimento biométrico por voz. O uso de redes neurais para atacar esse problema trouxe um grande salto em performance quando comparado a técnicas anteriores, e o principal formato de entrada utilizado é o espectrograma. Para vozes, o espectrograma pode enfatizar diferentes características a depender dos parâmetros de geração. Sendo assim, a proposta deste trabalho é explorar a fusão de características na verificação biométrica por voz, particularmente com o emprego de um espectrograma duplo como entrada do modelo. A escolha dessa técnica se justifica pela existência de trabalhos que também a utilizam em outras tarefas relacionadas à voz e fala, como detecção de palavra chave, detecção de trechos vozeados e classificação musical. A partir dos resultados foi possível validar a hipótese de que a utilização de espectrogramas duplos permite um ganho de performance nos modelos existentes, indicando que os tipos de espectrograma considerados portam informações complementares. A Equal Error Rate obtida foi de 1,61 para o modelo treinado com espectrogramas duplos, valor 26% menor que a taxa EER de 2,22, obtida no trabalho utilizado como referência neste texto [Chung et al. 2020]. Além disso, o modelo proposto possui melhor desempenho para qualquer escolha do limiar de decisão quando comparado com o trabalho de referência, tanto para minimizar falsos positivos como para minimizar falsos negativos.	pt_BR
dc.description.sponsorship	Fundação de Apoio à Pesquisa	pt_BR
dc.identifier.citation	VIRGILLI, R. Redes neurais profundas com fusão de características na verificação biométrica pela voz. 2022. 63 f. Dissertação (Metrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2022.	pt_BR
dc.identifier.uri	http://repositorio.bc.ufg.br/tede/handle/tede/12071
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Goiás	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Instituto de Informática - INF (RG)	pt_BR
dc.publisher.initials	UFG	pt_BR
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação (INF)	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Verificação de falante	por
dc.subject	Espectrograma multi resolução	por
dc.subject	Banda larga	por
dc.subject	Banda estreita	por
dc.subject	Speaker verification	eng
dc.subject	Multiresolution spectrogram	eng
dc.subject	Broadband	eng
dc.subject	Narrowband	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.title	Redes neurais profundas com fusão de características na verificação biométrica pela voz	pt_BR
dc.title.alternative	Deep neural networks with feature fusion in biometric verification by voice	eng
dc.type	Dissertação	pt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Dissertação - Rafaello Virgilli - 2022.pdf
Tamanho:: 9.96 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Mestrado em Ciência da Computação (INF)