Controle de estilo na síntese de voz em português brasileiro usando redes neurais profundas

dc.contributor.advisor1Soares, Anderson da Silva
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/1096941114079527pt_BR
dc.contributor.referee1Soares, Anderson da Silva
dc.contributor.referee2Galvão Filho, Arlindo Rodrigues
dc.contributor.referee3Gonçalves, Cristhiane
dc.creatorTunnermann, Daniel
dc.creator.Latteshttp://lattes.cnpq.br/7894945584957831pt_BR
dc.date.accessioned2023-04-04T11:01:27Z
dc.date.available2023-04-04T11:01:27Z
dc.date.issued2021-08-26
dc.description.abstractThe popularization of computer programs capable of emulating a dialogue between machines and people, known as chatbots, has driven the development of human-computer interface solutions. In this context, there is a relevant demand in the development of conversational voice interfaces that include at least the ability of the machine to understand words and synthesize voice. The use of Neural Networks has led to a new state of the art for speech synthesis. Mean Opinion Score(MOS) tests show that the speech synthesized by this method has a quality similar to speech recorded in studio by humans. Even with this quality, these methods have difficulty to reproduce the various ways of speaking the same text, to convey information that goes beyond the content, such as emotion, intensity, speed and emphasis. Therefore, new models have been developed to control the style of the generated speech and to transfer style from one audio segment to others. Despite these recent advances, the studies carried out are concentrated on the synthesis of texts in English or Mandarin. The application of style control methods to produce variations in Brazilian Portuguese is also scarce or non-existent. The research presented here developed a neural network architecture for speech synthesis in Brazilian Portuguese capable of controlling the style of synthesized speech. This control allows pitch and velocity changes. In MOS evaluation, the constructed model obtained 4.1 on a scale from 1(Poor) to 5(Excellent), validating the subjective evaluation of good quality in synthesized audios. Examples of audio generated by the developed models can be seen at shorturl.at/etFJP and https://mrfalante.com.br/sobre. Real-time synthesis using models resulting from this research can be performed at https://cybervox.ai.eng
dc.description.provenanceSubmitted by Marlene Santos (marlene.bc.ufg@gmail.com) on 2023-04-03T19:22:35Z No. of bitstreams: 2 Dissertação - Daniel Tunnermann - 2021.pdf: 2429803 bytes, checksum: 4242667c233ba237068b5060d827927b (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceApproved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2023-04-04T11:01:27Z (GMT) No. of bitstreams: 2 Dissertação - Daniel Tunnermann - 2021.pdf: 2429803 bytes, checksum: 4242667c233ba237068b5060d827927b (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)en
dc.description.provenanceMade available in DSpace on 2023-04-04T11:01:27Z (GMT). No. of bitstreams: 2 Dissertação - Daniel Tunnermann - 2021.pdf: 2429803 bytes, checksum: 4242667c233ba237068b5060d827927b (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2021-08-26en
dc.description.resumoA popularização de programas de computador capazes de emular um diálogo entre máquinas e pessoas, os denominados, chatbots, tem impulsionado o desenvolvimento de soluções de interface humano-computador. Nesse contexto, existe uma demanda relevante no desenvolvimento de interfaces conversacionais de voz que incluem no mínimo a capacidade da máquina de compreender palavras e de sintetizar voz. O uso de Redes Neurais levou a um novo estado da arte para a síntese de voz. Testes de Mean Opinion Score(MOS) mostram que as falas sintetizadas por este método tem qualidade semelhante às vozes gravadas em estúdio por humanos. Mesmo com essa qualidade, esses métodos tem dificuldade para reproduzir as várias formas de falar o mesmo texto, para transmitir informações que vão além do conteúdo, como a emoção, intensidade, velocidade e ênfase. Por isso, novos modelos tem sido desenvolvidos para controlar o estilo das vozes geradas e para a transferência de estilo de um segmento de áudio para outros. Apesar destes avanços recentes, os estudos realizados são concentrados na síntese de textos em inglês ou mandarim. A aplicação de métodos de controle de estilo para produzir variações no português brasileiro também é escassa ou inexistente. A pesquisa aqui apresentada desenvolveu uma arquitetura de redes neurais para a síntese de voz em português do Brasil capaz de controlar o estilo da voz sintetizada. Este controle permite alterações de entonação e velocidade. Em avaliação de MOS o modelo construído obteve 4.1 em uma escala de 1(Ruim) a 5(Excelente), validando a avaliação subjetiva de uma boa qualidade nos áudios sintetizados. Exemplos de áudios gerados pelos modelos desenvolvidos podem ser conferidos em shorturl.at/etFJP e https://mrfalante.com.br/sobre. Síntese em tempo real usando modelos resultantes desta pesquisa pode ser realizada em https://cybervox.ai.pt_BR
dc.description.sponsorshipOutropt_BR
dc.identifier.citationTUNNERMANN, Daniel. Controle de estilo na síntese de voz em português brasileiro usando redes neurais profundas. 2021. 50 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2021.pt_BR
dc.identifier.urihttp://repositorio.bc.ufg.br/tede/handle/tede/12724
dc.languageporpt_BR
dc.publisherUniversidade Federal de Goiáspt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentInstituto de Informática - INF (RMG)pt_BR
dc.publisher.initialsUFGpt_BR
dc.publisher.programPrograma de Pós-graduação em Ciência da Computação (INF)pt_BR
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subjectSíntese de vozpor
dc.subjectText-to-speechpor
dc.subjectTransferência de estilopor
dc.subjectRedes neuraispor
dc.subjectSpeech synthesiseng
dc.subjectText-to-speecheng
dc.subjectStyle transfereng
dc.subjectNeural networkseng
dc.subject.cnpqCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOpt_BR
dc.titleControle de estilo na síntese de voz em português brasileiro usando redes neurais profundaspt_BR
dc.title.alternativeSpeech synthesis with Style control in brazilian portuguese using neural networkseng
dc.typeDissertaçãopt_BR

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
Dissertação - Daniel Tunnermann - 2021.pdf
Tamanho:
2.32 MB
Formato:
Adobe Portable Document Format
Descrição:
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.71 KB
Formato:
Item-specific license agreed upon to submission
Descrição: