[pt] RECONHECIMENTO DE VOZ EM PRESENÇA DE RUÍDO
Ano de defesa: | 2001 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
MAXWELL
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1987&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1987&idi=2 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=1987&idi=4 http://doi.org/10.17771/PUCRio.acad.1987 |
Resumo: | [pt] Este trabalho apresenta um estudo comparativo de três técnicas de melhoria das taxas de reconhecimento de voz em ambiente adverso, a saber: Normalização da Média Cepestral (CMN), Subtração Espectral e Regressão Linear no Sentido da Máxima Verossimilhança (MLLR), aplicadas isoladamente e em concomitância, duas a duas. Os testes são realizados usando um sistema simples: reconhecimento de palavras isoladas (dígitos de zero a nove, e meia), modo dependente do locutor, modelos ocultos de Markov do tipo contínuo, e vetores de atributos com doze coeficientes cepestrais derivados da análise de predição linear. São adotados três tipos de ruído (gaussiano branco, falatório e de fábrica) em nove razões sinal-ruído diferentes. Os resultados experimentais demonstram que o emprego isolado das técnicas de reconhecimento robusto é, em geral, vantajoso, pois nas diversas razões sinal-ruído para as quais os testes são efetuados, quando as taxas de reconhecimento não sofrem um acréscimo, mantém-se as mesmas obtidas quando não se aplica nenhum método de aumento da robustez. Analisando-se comparativamente as implementações isoladas e simultânea das técnicas, constata-se que a simultânea nem sempre é atraente, dependendo da dupla empregada. Apresentam-se, ainda, os resultados decorrentes do uso de modelos ruidosos, observando-se que, embora sejam inegavelmente melhores, sua utilização é inviável na prática. Das técnicas implementadas, a que representa resultados mais próximos ao emprego de modelos ruidosos é a MLLR, seguida pela CMN, e por último pela Subtração Espectral. Estas últimas, embora percam em desempenho para a primeira, apresentam como vantagem a simplicidade e a generalidade. No que concerne as técnicas usadas concomitantemente, a dupla Subtração Espectral e MLLR é a considerada de melhor performance, pois mostra-se conveniente em relação ao emprego isolado de ambos os métodos, o que nem sempre ocorre com o uso de outras combinações das técnicas individuais. |