Avaliação da qualidade da sintetização de fala gerada por modelos de redes neurais profundas

Oliveira, Frederico Santos de

Avaliação da qualidade da sintetização de fala gerada por modelos de redes neurais profundas

dc.contributor.advisor1	Soares, Anderson da Silva
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/1096941114079527	pt_BR
dc.contributor.referee1	Soares, Anderson da Silva
dc.contributor.referee2	Aluisio, Sandra Maria
dc.contributor.referee3	Duarte, Julio Cesar
dc.contributor.referee4	Laureano, Gustavo Teodoro
dc.contributor.referee5	Galvão Filho, Arlindo Rodrigues
dc.creator	Oliveira, Frederico Santos de
dc.creator.Lattes	http://lattes.cnpq.br/6696015652553104	pt_BR
dc.date.accessioned	2023-06-27T10:32:54Z
dc.date.available	2023-06-27T10:32:54Z
dc.date.issued	2023-05-26
dc.description.abstract	With the emergence of intelligent personal assistants, the need for high-quality conversational interfaces has increased. While text-based chatbots are popular, the development of voice interfaces is equally important. However, the primary method for evaluating voice-based conversational models is mainly done through Mean Opinion Score (MOS), which relies on a manual and subjective process. In this context, this thesis aims to contribute with a new methodology for evaluating voice-based conversational interfaces, with a case study specifically conducted in Brazilian Portuguese. The proposed methodology includes an architecture for predicting the quality of synthesized speech in Brazilian Portuguese, correlated with MOS. To evaluate the proposed methodology, this work included training Text-to-Speech models to create the dataset called BRSpeechMOS. Details about the creation of this dataset are presented, along with a qualitative and quantitative analysis of it. A series of experiments were conducted to train various architectures using the BRSpeechMOS dataset. The architectures used are based on supervised and self-supervised learning. The results obtained confirm the hypothesis raised that pre-trained models on voice processing tasks such as speaker verification and automatic speech recognition produce suitable acoustic representations for the task of predicting speech quality, contributing to the advancement of the state of the art in the development of evaluation methodologies for conversational models.	eng
dc.description.provenance	Submitted by Leandro Machado (leandromachado@ufg.br) on 2023-06-26T20:16:14Z No. of bitstreams: 2 Tese - Frederico Santos de Oliveira - 2023.pdf: 7738237 bytes, checksum: 6e83b6d671e6057af96259a9e359f210 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)	en
dc.description.provenance	Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2023-06-27T10:32:52Z (GMT) No. of bitstreams: 2 Tese - Frederico Santos de Oliveira - 2023.pdf: 7738237 bytes, checksum: 6e83b6d671e6057af96259a9e359f210 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)	en
dc.description.provenance	Made available in DSpace on 2023-06-27T10:32:54Z (GMT). No. of bitstreams: 2 Tese - Frederico Santos de Oliveira - 2023.pdf: 7738237 bytes, checksum: 6e83b6d671e6057af96259a9e359f210 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2023-05-26	en
dc.description.resumo	Com o surgimento dos assistentes pessoais inteligentes a necessidade de interfaces conversacionais de qualidade tem aumentado. Embora os chatbots com interfaces de texto sejam populares, o desenvolvimento de interfaces de voz é igualmente importante. Entretanto, a principal forma de avaliação dos modelos conversacionais por voz é realizada principalmente por meio da Mean Opinion Score (MOS), que depende de um processo manual e subjetivo. Nesse sentido, esta tese objetiva contribuir com uma nova metodologia para avaliação das interfaces conversacionais por voz, com estudo de caso realizado especificamente em português brasileiro. A metodologia proposta inclui uma arquitetura para a predição da qualidade da fala sintetizada em português brasileiro, correlacionada à MOS. Para avaliar a metodologia proposta, este trabalho incluiu o treinamento de modelos Text-to-Speech para criar o conjunto de dados denominado BRSpeechMOS. Detalhes sobre a criação desse conjunto de dados são apresentados, bem como uma análise qualitativa e quantitativa dele. Uma série de experimentos foi realizada para treinar diversas arquiteturas usando o conjunto de dados BRSpeechMOS. As arquiteturas utilizadas são baseadas em aprendizado supervisionado e auto-supervisionado. Os resultados obtidos confirmam a hipótese levantada de que modelos pré-treinados em tarefas de processamento de voz tais como verificação de locutor e reconhecimento automático da fala produzem representações acústicas adequadas também para a tarefa de predição da qualidade da fala contribuindo para que o estado da arte avance no desenvolvimento de metodologias de avaliação de modelos conversacionais.	pt_BR
dc.identifier.citation	OLIVEIRA, F. S. Avaliação da qualidade da sintetização de fala gerada por modelos de redes neurais profundas. 2023. 129 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2023.	pt_BR
dc.identifier.uri	http://repositorio.bc.ufg.br/tede/handle/tede/12916
dc.language	por	pt_BR
dc.publisher	Universidade Federal de Goiás	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Instituto de Informática - INF (RMG)	pt_BR
dc.publisher.initials	UFG	pt_BR
dc.publisher.program	Programa de Pós-graduação em Ciência da Computação (INF)	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.subject	Avaliação da fala	por
dc.subject	Avaliação da fala sintetizada	por
dc.subject	Predição de MOS	por
dc.subject	Redes neurais profundas	por
dc.subject	Predição da qualidade	por
dc.subject	Speech assessment	eng
dc.subject	Synthesized speech assessment	eng
dc.subject	MOS prediction	eng
dc.subject	Deep neural networks	eng
dc.subject	Quality prediction	eng
dc.subject.cnpq	CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO	pt_BR
dc.title	Avaliação da qualidade da sintetização de fala gerada por modelos de redes neurais profundas	pt_BR
dc.title.alternative	Evaluation of speech synthesis quality generated by deep neural network models	eng
dc.type	Tese	pt_BR

Arquivos

Pacote Original

Agora exibindo 1 - 1 de 1

Nome:: Tese - Frederico Santos de Oliveira - 2023.pdf
Tamanho:: 7.38 MB
Formato:: Adobe Portable Document Format
Descrição:

Baixar

Licença do Pacote

Agora exibindo 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.71 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Baixar

Coleções

Doutorado em Ciência da Computação