Detalhes bibliográficos
Ano de defesa: |
2023 |
Autor(a) principal: |
Lima, Rodrigo da Silva Barboza |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://hdl.handle.net/11449/251226
|
Resumo: |
Algoritmos para conversão de voz, tradicionalmente conhecidos como voice morphing algorithms, têm tido aplicações diversas, tais como a substituição de falas de locutores falescidos ou com o sistema fonatório incapacitado, a possibilidade que determinada música originalmente cantada por um locutor surja com a voz de outro, e assim por diante. Recentemente, tais técnicas têm se tornado mais populares em função dos algoritmos de deep fake, entretanto, a maior desvantagem deles é a dificuldade em criar modelos interpretáveis, assim como ocorre com quaisquer estratégias baseadas em deep learning. Desse modo, neste trabalho, a intenção é a de explorar uma outra possibilidade: a conversão de voz baseada na Transformada Wavelet de Tempo Discreto (DTWT), trabalhando em associação com redes neurais artificiais rasas, que possuem maior possibilidade de gerar modelos interpretáveis. Particularmente, relacionam-se quais os melhores filtros wavelet para conversão de determinados padrões de voz. Testes são realizados com vozes da base de dados TIMIT do Linguistic Data Consortium (LDC) que permitem constatar a viabilidade da estratégia proposta considerando testes de preferência acústica e métricas de distância. |