Avaliação da qualidade da sintetização de fala gerada por modelos de redes neurais profundas
dc.contributor.advisor1 | Soares, Anderson da Silva | |
dc.contributor.advisor1Lattes | http://lattes.cnpq.br/1096941114079527 | pt_BR |
dc.contributor.referee1 | Soares, Anderson da Silva | |
dc.contributor.referee2 | Aluisio, Sandra Maria | |
dc.contributor.referee3 | Duarte, Julio Cesar | |
dc.contributor.referee4 | Laureano, Gustavo Teodoro | |
dc.contributor.referee5 | Galvão Filho, Arlindo Rodrigues | |
dc.creator | Oliveira, Frederico Santos de | |
dc.creator.Lattes | http://lattes.cnpq.br/6696015652553104 | pt_BR |
dc.date.accessioned | 2023-06-27T10:32:54Z | |
dc.date.available | 2023-06-27T10:32:54Z | |
dc.date.issued | 2023-05-26 | |
dc.description.abstract | With the emergence of intelligent personal assistants, the need for high-quality conversational interfaces has increased. While text-based chatbots are popular, the development of voice interfaces is equally important. However, the primary method for evaluating voice-based conversational models is mainly done through Mean Opinion Score (MOS), which relies on a manual and subjective process. In this context, this thesis aims to contribute with a new methodology for evaluating voice-based conversational interfaces, with a case study specifically conducted in Brazilian Portuguese. The proposed methodology includes an architecture for predicting the quality of synthesized speech in Brazilian Portuguese, correlated with MOS. To evaluate the proposed methodology, this work included training Text-to-Speech models to create the dataset called BRSpeechMOS. Details about the creation of this dataset are presented, along with a qualitative and quantitative analysis of it. A series of experiments were conducted to train various architectures using the BRSpeechMOS dataset. The architectures used are based on supervised and self-supervised learning. The results obtained confirm the hypothesis raised that pre-trained models on voice processing tasks such as speaker verification and automatic speech recognition produce suitable acoustic representations for the task of predicting speech quality, contributing to the advancement of the state of the art in the development of evaluation methodologies for conversational models. | eng |
dc.description.provenance | Submitted by Leandro Machado (leandromachado@ufg.br) on 2023-06-26T20:16:14Z No. of bitstreams: 2 Tese - Frederico Santos de Oliveira - 2023.pdf: 7738237 bytes, checksum: 6e83b6d671e6057af96259a9e359f210 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) | en |
dc.description.provenance | Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2023-06-27T10:32:52Z (GMT) No. of bitstreams: 2 Tese - Frederico Santos de Oliveira - 2023.pdf: 7738237 bytes, checksum: 6e83b6d671e6057af96259a9e359f210 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) | en |
dc.description.provenance | Made available in DSpace on 2023-06-27T10:32:54Z (GMT). No. of bitstreams: 2 Tese - Frederico Santos de Oliveira - 2023.pdf: 7738237 bytes, checksum: 6e83b6d671e6057af96259a9e359f210 (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2023-05-26 | en |
dc.description.resumo | Com o surgimento dos assistentes pessoais inteligentes a necessidade de interfaces conversacionais de qualidade tem aumentado. Embora os chatbots com interfaces de texto sejam populares, o desenvolvimento de interfaces de voz é igualmente importante. Entretanto, a principal forma de avaliação dos modelos conversacionais por voz é realizada principalmente por meio da Mean Opinion Score (MOS), que depende de um processo manual e subjetivo. Nesse sentido, esta tese objetiva contribuir com uma nova metodologia para avaliação das interfaces conversacionais por voz, com estudo de caso realizado especificamente em português brasileiro. A metodologia proposta inclui uma arquitetura para a predição da qualidade da fala sintetizada em português brasileiro, correlacionada à MOS. Para avaliar a metodologia proposta, este trabalho incluiu o treinamento de modelos Text-to-Speech para criar o conjunto de dados denominado BRSpeechMOS. Detalhes sobre a criação desse conjunto de dados são apresentados, bem como uma análise qualitativa e quantitativa dele. Uma série de experimentos foi realizada para treinar diversas arquiteturas usando o conjunto de dados BRSpeechMOS. As arquiteturas utilizadas são baseadas em aprendizado supervisionado e auto-supervisionado. Os resultados obtidos confirmam a hipótese levantada de que modelos pré-treinados em tarefas de processamento de voz tais como verificação de locutor e reconhecimento automático da fala produzem representações acústicas adequadas também para a tarefa de predição da qualidade da fala contribuindo para que o estado da arte avance no desenvolvimento de metodologias de avaliação de modelos conversacionais. | pt_BR |
dc.identifier.citation | OLIVEIRA, F. S. Avaliação da qualidade da sintetização de fala gerada por modelos de redes neurais profundas. 2023. 129 f. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2023. | pt_BR |
dc.identifier.uri | http://repositorio.bc.ufg.br/tede/handle/tede/12916 | |
dc.language | por | pt_BR |
dc.publisher | Universidade Federal de Goiás | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Instituto de Informática - INF (RMG) | pt_BR |
dc.publisher.initials | UFG | pt_BR |
dc.publisher.program | Programa de Pós-graduação em Ciência da Computação (INF) | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.subject | Avaliação da fala | por |
dc.subject | Avaliação da fala sintetizada | por |
dc.subject | Predição de MOS | por |
dc.subject | Redes neurais profundas | por |
dc.subject | Predição da qualidade | por |
dc.subject | Speech assessment | eng |
dc.subject | Synthesized speech assessment | eng |
dc.subject | MOS prediction | eng |
dc.subject | Deep neural networks | eng |
dc.subject | Quality prediction | eng |
dc.subject.cnpq | CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO | pt_BR |
dc.title | Avaliação da qualidade da sintetização de fala gerada por modelos de redes neurais profundas | pt_BR |
dc.title.alternative | Evaluation of speech synthesis quality generated by deep neural network models | eng |
dc.type | Tese | pt_BR |
Arquivos
Pacote Original
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- Tese - Frederico Santos de Oliveira - 2023.pdf
- Tamanho:
- 7.38 MB
- Formato:
- Adobe Portable Document Format
- Descrição:
Licença do Pacote
1 - 1 de 1
Nenhuma Miniatura disponível
- Nome:
- license.txt
- Tamanho:
- 1.71 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição: