Detalhes bibliográficos
Ano de defesa: |
2015 |
Autor(a) principal: |
ARAÚJO, Fabiola Pantoja Oliveira
 |
Orientador(a): |
KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha
 |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal do Pará
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Engenharia Elétrica
|
Departamento: |
Instituto de Tecnologia
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
http://repositorio.ufpa.br/jspui/handle/2011/7749
|
Resumo: |
A imitação da voz através do mecanismo de utterance copy consiste em estimar os parâmetros de entrada de um sintetizador de voz para gerar um sinal parecido com o da voz original. Este processo distingue-se da tradicional conversão texto-fala, porém é usado em muitas áreas, especialmente, em Linguística e na Saúde. Imitar a voz humana através deste mecanismo é um problema inverso difícil, pois este mapeamento é não linear e de muitos para um. Por exemplo, existem diferentes combinações dos valores dos parâmetros de entrada do sintetizador que produzem o mesmo sinal de voz sintética. Sendo assim, realizar manualmente a imitação da voz requer uma quantidade considerável de tempo e métodos automáticos, como o proposto aqui, são de interesse. Este trabalho apresenta um arcabouço baseado em algoritmo genético (AG) para estimar automaticamente os valores dos parâmetros de entrada de um sintetizador de voz por formantes, utilizando o processo de análise-por-síntese. Os resultados apresentados compreendem a imitação de vozes sintéticas (geradas por computador) e naturais (geradas por humanos) em inglês americano, para falantes masculinos e femininos. Estes resultados são comparados com os obtidos através do Winsnoori (baseline), o único software disponível atualmente que executa a mesma tarefa. Os experimentos mostraram que o arcabouço desenvolvido (newGASpeech) é uma alternativa eficaz para o trabalhoso processo manual de estimar os valores dos parâmetros de entrada de um sintetizador por formantes, superando a qualidade das vozes geradas pelo baseline em relação à cinco métricas objetivas utilizadas e à avaliação subjetiva aplicada a vinte e sete ouvintes não especialistas na área de voz e nem no idioma adotado. |