Sistema de reconhecimento de voz dependente de locutor utilizando-se a transformada discreta cosseno.

Detalhes bibliográficos
Ano de defesa: 2002
Autor(a) principal: Silva, Washington Luis Santos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-25092024-134829/
Resumo: A utilização da transformada discreta cosseno (TDC) na compressão de dados e na classificação de padrões aumentou muito nos últimos anos e isso se deve, principalmente, ao fato do seu desempenho aproximar-se muito dos resultados obtidos com a transformada de Karhunen-Loève que é considerada ótima. Neste trabalho procura-se demonstrar o potencial da transformada discreta cosseno no reconhecimento de voz. Após uma exposição dos assuntos considerados importantes para o entendimento da produção da fala, bem como o modelamento matemático da voz, aborda-se de forma sucinta as características das transformadas ortogonais e define-se um sistema de reconhecimento automático de voz, como classificador, que extrai as características das locuções, coeficientes mel cepstrais de duas dimensões, e através da transformada discreta cosseno são apresentados os padrões para o classificador. Para a realização dos testes são utilizadas seis bases de dados distintas, contendo locuções formadas por doze locutores que foram utilizados para gerarem os modelos e os testes do reconhecedor. Os resultados obtidos pelo classificador (reconhecedor de voz) utilizando-se a transformada discreta cosseno são comparados com os resultados obtidos com um reconhecedor baseado em HMM nas tarefas de reconhecimento de dígitos isolados dependente e não dependente de locutor. Os resultados obtidos no processo de reconhecimento foram bastante positivos e apontam um melhor desempenho da transformada discreta cosseno quando comparada com o reconhecedor HMM na tarefa de reconhecimento de dígitos, e ainda, podem ser apontadas como vantagens a menor complexidade computacional, tanto na implementação quanto na ocupação de memória pelos padrões gerados. Este trabalho também revela a importância de capturar-se as informações dinâmicas contidas nos sinais de voz. ) O reconhecedor de voz baseado na transformada discreta cosseno proposto neste trabalho baseia-se fortemente nesse tipo de informação.