Conversão de fala sussurrada para fala normal usando modelos neurais

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: Yamamura, Cezar Fumio lattes
Orientador(a): Scalassara, Paulo Rogerio lattes
Banca de defesa: Agulhari, Cristiano Marcos lattes, Spatti, Danilo Hernane lattes, Scalassara, Paulo Rogerio lattes, Barbon Junior, Sylvio
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia Elétrica
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/30188
Resumo: O sussurro é um mecanismo de fala comum e secundário para se comunicar, porém, em alguns casos, pode ser a principal forma de diálogo, como nos casos de pessoas com patologias da laringe ou que sofreram algum tipo de dano nas pregas vocais. As diferenças de características entre a voz normal e a sussurrada têm levantado discussões na área de reconhecimento de fala, pela dificuldade de realizar a conversão de fala sussurrada para fala vozeada. Este trabalho apresenta o estudo das características da fala normal e sussurrada, e a implementação do sistema de conversão de voz normal para sussurrada utilizando redes perceptron multicamadas e redes generativas adversárias. Os dados utilizados foram provenientes pela parceria com Faculdade de Porto, que são sinais de vogais usados no português europeu. Para a validação do estudo, foram analisado três métricas: Mel-Cepstrum Distortion, raiz quadrada do erro médio do log(F0) e acurácia do classificador de vogais.