Reconhecimento automático de identidade vocal utilizando modelagem híbrida: paramétrica e estatística.
Ano de defesa: | 2000 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Campina Grande
Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UFCG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/9016 |
Resumo: | Este trabalho trata da aplicação de uma técnica híbrida (paramétrica e estatística), que utiliza Analise por Predição Linear, Quantização Vetorial, Redes Neurais e Modelos de Markov Escondidos, para o desenvolvimento de um sistema de reconhecimento (identificação) automático da identidade vocal, visando obter alternativas para os algoritmos tradicionais. Com o objetivo de se obter um sistema mais rápido e robusto, e realizada uma etapa de pre-identificação, seguida da identificação. A primeira etapa utiliza a frequência fundamental (F0) como parâmetro de separação previa dos locutores em grupos gerais, de acordo com o sexo. O método proposto para estimação da FQ se mostra eficiente (99% de classificação correta), fornecendo estimativas representativas de cada locutor, reduzindo assim o numero de locutores a participar da etapa posterior. A etapa de identificação utiliza Modelos de Markov Escondidos (HMMs) de Densidades Discretas e Quantização Vetorial Paramétrica, com parâmetros acústicos obtidos a partir da Analise por Predição Linear (coeficientes LPC, Cepestrais, Cepestrais Ponderados, Delta Cepestrais e Delta Cepestrais Ponderados). Os coeficientes Cepestrais, seguido dos Delta Cepestrais, proporcionam maiores taxas de identificação. Em se tratando do projeto do dicionário do quantizador vetorial, são avaliados três algoritmos: LBG (Linde-Buzo-Gray), KMVVT (Kohonen Modificado com Vizinhanga Centrada em Torno do Vetor de Treino) e SSC (Competitivo no Espaço Sináptico). O algoritmo SSC apresenta-se como o mais adequado para o projeto dos dicionarios, levando a maiores taxas de identificação. A modelagem por HMMs se constitui em uma etapa de "refinamento" do processo de identificação, sendo utilizada quando as medidas de distorção obtidas pela comparação do padrão de teste do locutor a ser identificado (vetor de características acústicas) com os padrões de referenda (dicionários do quantizador vetorial) indicarem "similaridade" entre os padrões vocais. A técnica aplicada neste trabalho proporciona a obtenção de um sistema de reconhecimento automático da identidade vocal que apresenta taxa media de identificação elevada (97,8%) e significativa, baixas taxas medias de falsa aceitação (0,8%) e de falsa rejeição (1,5%), bem como alta confiabilidade (99,2%). O sistema de identificação de locutor desenvolvido e, portanto, capaz de discriminar, de forma eficiente, os locutores a partir das suas características vocais apresentando, independentemente do sexo do locutor, pequenas variações intralocutor e grandes variações interlocutor. |