Reconhecimento automático do locutor usando pré-processamento em sons nasalizados com diversos classificadores neurais.

Detalhes bibliográficos
Ano de defesa: 2001
Autor(a) principal: Sória, Roberto Amilton Bernardes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-16092024-101602/
Resumo: Este trabalho avalia o reconhecimento do locutor utilizando diferentes tipos de redes neurais artificiais e um pré-processamento baseado nas correlações dos coeficientes mel-cepstrais. Primeiramente são mostradas as bases para o aprendizado das redes neurais e em seguida a importante teoria das redes é exposta. As redes utilizadas neste trabalho são de dois tipos diferentes. O Multi-Layer Perceptron (MLP), a LearnMatrix (LM) e a Radial Basis Function (RBF) são redes supervisionadas, enquanto a Self-Organizing Feature Finder (SOFF) é não supervisionada. Estas redes são comparadas na tarefa de reconhecimento do locutor. O pré-processamento do sinal de voz que utiliza as correlações dos coeficientes mel-cepstrais, chamados de MFC3, é mostrado e avaliado. A viabilidade da utilização destes coeficientes é reconhecida e os resultados obtidos apontam para o MLP junto com os MFC3 como sendo uma combinação que permite obter taxas elevadas na tarefa de reconhecimento do locutor. No entanto, os resultados mostrados para a rede binária LearnMatrix a definem como sendo uma ferramenta poderosa na avaliação prévia do sinal de voz.