Redes neurais profundas com fusão de características na verificação biométrica pela voz
dc.contributor.advisor1 | Soares, Anderson da Silva | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/1096941114079527 | pt_BR |
dc.contributor.referee1 | Galvão Filho, Arlindo Rodrigues | |
dc.contributor.referee2 | Soares, Anderson da Silva | |
dc.contributor.referee3 | Cândido Júnior, Arnaldo | |
dc.creator | Virgilli, Rafaello | |
dc.creator.Lattes | http://lattes.cnpq.br/0625389300835349 | pt_BR |
dc.date.accessioned | 2022-05-17T15:32:02Z | |
dc.date.available | 2022-05-17T15:32:02Z | |
dc.date.issued | 2022-04-14 | |
dc.description.abstract | The voice spoken by a person has a considerable variability which is due both to factors related to the speaker himself, such as accent, emotional state, and voice transition over age, as well as on factors external to the speaker, such as background noise, reverberation, capture equipment, and the digitalization process. Therefore, there are many challenges present in the task of biometric verification by voice. The use of neural networks to tackle this problem brought a big leap in performance when compared to previous techniques, and the main input format used is the spectrogram. For voices, the spectrogram can emphasize different characteristics depending on the generation parameters. The purpose of this work is to explore feature fusion in biometric verification by voice, particularly with by using dual spectrograms as input to the model. This approach is justified by the existence of works that also use it in other tasks related to voice and speech, such as keyword spotting, detection of voiced excerpts and musical classification. From the results, it was possible to validate the hypothesis that the use of dual spectrograms allows a performance gain in existing models, implying that certain types of spectrogram carry complementary information. The Equal Error Rate obtained was 1.61 for the model trained with dual spectrograms, which is 26% less than the EER rate of 2.22 obtained by the reference work [Chung et al. 2020]. Furthermore, the model proposed in this work has better performance for any decision threshold when compared to the reference work, either to minimize false positives or false negatives. | eng |
dc.description.provenance | Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2022-05-17T12:00:33Z No. of bitstreams: 2 Dissertação - Rafaello Virgilli - 2022.pdf: 10439802 bytes, checksum: 1e8334f1f1607f426639954751f1a50f (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) | en |
dc.description.provenance | Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2022-05-17T15:32:01Z (GMT) No. of bitstreams: 2 Dissertação - Rafaello Virgilli - 2022.pdf: 10439802 bytes, checksum: 1e8334f1f1607f426639954751f1a50f (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) | en |
dc.description.provenance | Made available in DSpace on 2022-05-17T15:32:02Z (GMT). No. of bitstreams: 2 Dissertação - Rafaello Virgilli - 2022.pdf: 10439802 bytes, checksum: 1e8334f1f1607f426639954751f1a50f (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2022-04-14 | en |
dc.description.resumo | A voz emitida por um falante possui grande variabilidade e isto se deve tanto a fatores relacionados ao próprio falante, como o sotaque, estado emocional e a mudança da voz com a idade, quanto a fatores externos, como ruídos de fundo ruídos de fundo, reverberação, equipamento de captura e formato de digitalização. Sendo assim, são muitos os desafios presentes na tarefa de reconhecimento biométrico por voz. O uso de redes neurais para atacar esse problema trouxe um grande salto em performance quando comparado a técnicas anteriores, e o principal formato de entrada utilizado é o espectrograma. Para vozes, o espectrograma pode enfatizar diferentes características a depender dos parâmetros de geração. Sendo assim, a proposta deste trabalho é explorar a fusão de características na verificação biométrica por voz, particularmente com o emprego de um espectrograma duplo como entrada do modelo. A escolha dessa técnica se justifica pela existência de trabalhos que também a utilizam em outras tarefas relacionadas à voz e fala, como detecção de palavra chave, detecção de trechos vozeados e classificação musical. A partir dos resultados foi possível validar a hipótese de que a utilização de espectrogramas duplos permite um ganho de performance nos modelos existentes, indicando que os tipos de espectrograma considerados portam informações complementares. A Equal Error Rate obtida foi de 1,61 para o modelo treinado com espectrogramas duplos, valor 26% menor que a taxa EER de 2,22, obtida no trabalho utilizado como referência neste texto [Chung et al. 2020]. Além disso, o modelo proposto possui melhor desempenho para qualquer escolha do limiar de decisão quando comparado com o trabalho de referência, tanto para minimizar falsos positivos como para minimizar falsos negativos. | pt_BR |
dc.description.sponsorship | Fundação de Apoio à Pesquisa | pt_BR |
dc.identifier.citation | VIRGILLI, R. Redes neurais profundas com fusão de características na verificação biométrica pela voz. 2022. 63 f. Dissertação (Metrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2022. | pt_BR |
dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/12071 | |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Goiás | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Instituto de Informática - INF (RG) | pt_BR |
dc.publisher.initials | UFG | pt_BR |
dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Verificação de falante | por |
dc.subject | Espectrograma multi resolução | por |
dc.subject | Banda larga | por |
dc.subject | Banda estreita | por |
dc.subject | Speaker verification | eng |
dc.subject | Multiresolution spectrogram | eng |
dc.subject | Broadband | eng |
dc.subject | Narrowband | eng |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | pt_BR |
dc.title | Redes neurais profundas com fusão de características na verificação biométrica pela voz | pt_BR |
dc.title.alternative | Deep neural networks with feature fusion in biometric verification by voice | eng |
dc.type | Dissertação | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Dissertação - Rafaello Virgilli - 2022.pdf
- Tamanho:
- 9.96 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: