Avaliação da qualidade da sintetização de fala gerada por modelos de redes neurais profundas

dc.contributor.advisor1Soares, Anderson da Silva
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/1096941114079527pt_BR
dc.contributor.referee1Soares, Anderson da Silva
dc.contributor.referee2Aluisio, Sandra Maria
dc.contributor.referee3Duarte, Julio Cesar
dc.contributor.referee4Laureano, Gustavo Teodoro
dc.contributor.referee5Galvão Filho, Arlindo Rodrigues
dc.creatorOliveira, Frederico Santos de
dc.creator.Latteshttp://lattes.cnpq.br/6696015652553104pt_BR
dc.date.accessioned2023-06-27T10:32:54Z
dc.date.available2023-06-27T10:32:54Z
dc.date.issued2023-05-26
dc.description.abstractWith the emergence of intelligent personal assistants, the need for high-quality conversational interfaces has increased. While text-based chatbots are popular, the development of voice interfaces is equally important. However, the primary method for evaluating voice-based conversational models is mainly done through Mean Opinion Score (MOS), which relies on a manual and subjective process. In this context, this thesis aims to contribute with a new methodology for evaluating voice-based conversational interfaces, with a case study specifically conducted in Brazilian Portuguese. The proposed methodology includes an architecture for predicting the quality of synthesized speech in Brazilian Portuguese, correlated with MOS. To evaluate the proposed methodology, this work included training Text-to-Speech models to create the dataset called BRSpeechMOS. Details about the creation of this dataset are presented, along with a qualitative and quantitative analysis of it. A series of experiments were conducted to train various architectures using the BRSpeechMOS dataset. The architectures used are based on supervised and self-supervised learning. The results obtained confirm the hypothesis raised that pre-trained models on voice processing tasks such as speaker verification and automatic speech recognition produce suitable acoustic representations for the task of predicting speech quality, contributing to the advancement of the state of the art in the development of evaluation methodologies for conversational models.eng
dc.description.provenanceSubmitted by Leandro Machado (leandromachado@ufg.br) on 2023-06-26T20:16:14Z No. of bitstreams: 2 Tese - Frederico Santos de Oliveira - 2023.pdf: 7738237 bytes, checksum: 6e83b6d671e6057af96259a9e359f210 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceApproved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2023-06-27T10:32:52Z (GMT) No. of bitstreams: 2 Tese - Frederico Santos de Oliveira - 2023.pdf: 7738237 bytes, checksum: 6e83b6d671e6057af96259a9e359f210 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceMade available in DSpace on 2023-06-27T10:32:54Z (GMT). No. of bitstreams: 2 Tese - Frederico Santos de Oliveira - 2023.pdf: 7738237 bytes, checksum: 6e83b6d671e6057af96259a9e359f210 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2023-05-26en
dc.description.resumoCom o surgimento dos assistentes pessoais inteligentes a necessidade de interfaces conversacionais de qualidade tem aumentado. Embora os chatbots com interfaces de texto sejam populares, o desenvolvimento de interfaces de voz é igualmente importante. Entretanto, a principal forma de avaliação dos modelos conversacionais por voz é realizada principalmente por meio da Mean Opinion Score (MOS), que depende de um processo manual e subjetivo. Nesse sentido, esta tese objetiva contribuir com uma nova metodologia para avaliação das interfaces conversacionais por voz, com estudo de caso realizado especificamente em português brasileiro. A metodologia proposta inclui uma arquitetura para a predição da qualidade da fala sintetizada em português brasileiro, correlacionada à MOS. Para avaliar a metodologia proposta, este trabalho incluiu o treinamento de modelos Text-to-Speech para criar o conjunto de dados denominado BRSpeechMOS. Detalhes sobre a criação desse conjunto de dados são apresentados, bem como uma análise qualitativa e quantitativa dele. Uma série de experimentos foi realizada para treinar diversas arquiteturas usando o conjunto de dados BRSpeechMOS. As arquiteturas utilizadas são baseadas em aprendizado supervisionado e auto-supervisionado. Os resultados obtidos confirmam a hipótese levantada de que modelos pré-treinados em tarefas de processamento de voz tais como verificação de locutor e reconhecimento automático da fala produzem representações acústicas adequadas também para a tarefa de predição da qualidade da fala contribuindo para que o estado da arte avance no desenvolvimento de metodologias de avaliação de modelos conversacionais.pt_BR
dc.identifier.citationOLIVEIRA, F. S. Avaliação da qualidade da sintetização de fala gerada por modelos de redes neurais profundas. 2023. 129 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2023.pt_BR
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/12916
dc.languageporpt_BR
dc.publisherUniversidade Federal de Goiáspt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto de Informática - INF (RMG)pt_BR
dc.publisher.initialsUFGpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)pt_BR
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectAvaliação da falapor
dc.subjectAvaliação da fala sintetizadapor
dc.subjectPredição de MOSpor
dc.subjectRedes neurais profundaspor
dc.subjectPredição da qualidadepor
dc.subjectSpeech assessmenteng
dc.subjectSynthesized speech assessmenteng
dc.subjectMOS predictioneng
dc.subjectDeep neural networkseng
dc.subjectQuality predictioneng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpt_BR
dc.titleAvaliação da qualidade da sintetização de fala gerada por modelos de redes neurais profundaspt_BR
dc.title.alternativeEvaluation of speech synthesis quality generated by deep neural network modelseng
dc.typeTesept_BR

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Tese - Frederico Santos de Oliveira - 2023.pdf
Tamanho:
7.38 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: