Detecção de frequência fundamental baseada em mecanismos laríngeos

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: LACERDA, Everton Barbosa
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/33900
Resumo: A detecção de frequência fundamental é uma das áreas mais antigas, relatadas e relevantes em processamento de sinais de voz. Isso ocorre porque ela é importante em várias aplicações (processamento, síntese ou codificação da voz). Muitos métodos foram propostos, porém, há possibilidades para melhorias, principalmente, no que diz respeito ao ajuste de seus parâmetros. Para permitir seu amplo espectro de frequência, a produção vocal é caracterizada por quatro configurações laríngeas distintas, chamadas de mecanismos laríngeos, sendo seus rótulos M0, M1, M2 e M3, em ordem crescente de possibilidade de produção de frequências, ou seja, do mais grave para o mais agudo. É conhecido que certas frequências que podem ser emitidas em dois mecanismos “vizinhos”, porém, outras, que só se observam em determinado mecanismo. Também se sabe que um parâmetro que afeta o desempenho dos algoritmos de detecção de frequência fundamental é o intervalo de busca, que é definido como a menor e maior frequência esperada para o sinal de entrada. Esses valores podem ser determinados por conhecimento prévio sobre a voz sob análise ou se usam valores padrão definidos na literatura. Devido à relação entre os mecanismos laríngeos e as frequências produzidas pela voz, esta Tese propõe empregar a identificação do mecanismo para otimizar o intervalo de busca na detecção de frequência. Isso é possível porque cada som é produzido em um mecanismo específico e, portanto, não se torna necessário usar um intervalo de frequência adequado para qualquer voz. A abordagem descrita na Tese apresenta a vantagem de utilizar uma medida intrínseca à produção vocal. Na literatura, a caracterização desses mecanismos é feita através do sinal eletroglotográfico (EGG) e sua derivada (DEGG), e não se conhece nenhum método automático para tal. Assim, além de propor otimizar os intervalos de busca apoiando-se nos mecanismos laríngeos, esta Tese apresenta um método para a classificação automática de mecanismos laríngeos baseado na análise de uma representação visual do sinal. Em mais detalhes, obtém-se o espectrograma, calculam-se as suas propriedades de textura, e essas medidas são usadas como características para a classificação. Os experimentos mostram que a informação de mecanismo laríngeo reduz os erros na detecção de frequência fundamental. Além disso, mostra-se que a classificação automática é efetiva, no que tange à classificação, chegando a uma taxa de 94,87%; e também para a detecção de frequência, pois apesar dos erros de classificação, a acurácia da detecção aumentou significativamente.