[pt] MODELAGEM ESTOCÁSTICA DE VOZ E CLASSIFICAÇÃO DOS SINAIS OBTIDOS USANDO REDES NEURAIS ARTIFICIAIS

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: JOSUE VALENTIN USCATA BARRIENTOS
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=37984&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=37984&idi=2
http://doi.org/10.17771/PUCRio.acad.37984
Resumo: [pt] O objetivo desta dissertação é classificar sinais de vozes, usando redes neurais, obtidos por meio de um modelo mecânico-estocástico para produção da voz humana, esse modelo foi construído a partir de uma abordagem probabilística não-paramétrica para considerar incertezas do modelo. Primeiro, uma rede neural artificial foi construída para classificar sinais de vozes reais, normais e provenientes de sujeitos com patologias nas cordas vocais. Como entradas da rede neural foram usadas medidas acústicas extraídas dos sinais glotais, obtidos por filtragem inversa dos sinais de vozes reais. Essa rede neural foi usada, posteriormente, para classificar sinais de vozes sintetizadas geradas por um modelo estocástico da produção da voz humana, no caso particular da geração de vogais. O modelo estocástico da produção da voz humana foi construído tomando por base o modelo determinístico criado por Ishizaka e Flanagan. Incertezas do modelo foram consideradas através de uma abordagem probabilística não-paramétrica de modo que matrizes aleatórias foram associadas às matrizes de massa, rigidez e amortecimento do modelo. Funções densidade de probabilidade foram construídas para essas matrizes, usando o Princípio da Máxima Entropia. O método de Monte Carlo foi usado para gerar realizaçoes de sinais de vozes. Os sinais obtidos foram então classificados usando a rede neural construída previamente. Das realizações obtidas, alguns sinais de vozes foram classificados como normais, porém outros foram classificados como provenientes de sujeitos com patologias nas cordas vocais. Os sinais com características de patologia foram classificados em três grupos: nódulo, paralisia unilateral e outras patologias.