Detalhes bibliográficos
Ano de defesa: |
2020 |
Autor(a) principal: |
Andrade, Thiago Garcia de |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://hdl.handle.net/11449/202193
|
Resumo: |
Melhorar sinais de voz degradados por ruídos não-estacionários é uma tarefa importante e de interesse em diversas áreas de pesquisa. Os espectros variantes no tempo de ruídos não-estacionários comprometem o desempenho de métodos clássicos de melhoramento de voz. Este trabalho explora a utilização de representações esparsas utilizando dicionários treinados no melhoramento de voz. O sinal ruidoso no domínio tempo-frequência é codificado de maneira esparsa utilizando um dicionário formado pela concatenação de um dicionário de voz e um dicionário de ruído. A voz pura é estimada pela representação gerada pelo dicionário de voz enquanto a estimação do ruído é dada pela representação fornecida pelo dicionário de ruído. Uma codificação muito esparsa aumenta o erro de aproximação, denotado por distorção de fonte. Uma codificação muito densa causa confusão de fonte, onde a voz é parcialmente representada pelo dicionário de ruído, e o ruído é parcialmente codificado pelo dicionário de voz. A esparsidade da representação é regulada para melhorar o desempenho. Os resultados experimentais mostram que esta abordagem alcança resultados superiores à subtração espectral, filtro de Wiener e MMSE-STSA usando diferentes medidas objetivas de avaliação. |