Detalhes bibliográficos
Ano de defesa: |
2002 |
Autor(a) principal: |
Silva, Washington Luis Santos |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-25092024-134829/
|
Resumo: |
A utilização da transformada discreta cosseno (TDC) na compressão de dados e na classificação de padrões aumentou muito nos últimos anos e isso se deve, principalmente, ao fato do seu desempenho aproximar-se muito dos resultados obtidos com a transformada de Karhunen-Loève que é considerada ótima. Neste trabalho procura-se demonstrar o potencial da transformada discreta cosseno no reconhecimento de voz. Após uma exposição dos assuntos considerados importantes para o entendimento da produção da fala, bem como o modelamento matemático da voz, aborda-se de forma sucinta as características das transformadas ortogonais e define-se um sistema de reconhecimento automático de voz, como classificador, que extrai as características das locuções, coeficientes mel cepstrais de duas dimensões, e através da transformada discreta cosseno são apresentados os padrões para o classificador. Para a realização dos testes são utilizadas seis bases de dados distintas, contendo locuções formadas por doze locutores que foram utilizados para gerarem os modelos e os testes do reconhecedor. Os resultados obtidos pelo classificador (reconhecedor de voz) utilizando-se a transformada discreta cosseno são comparados com os resultados obtidos com um reconhecedor baseado em HMM nas tarefas de reconhecimento de dígitos isolados dependente e não dependente de locutor. Os resultados obtidos no processo de reconhecimento foram bastante positivos e apontam um melhor desempenho da transformada discreta cosseno quando comparada com o reconhecedor HMM na tarefa de reconhecimento de dígitos, e ainda, podem ser apontadas como vantagens a menor complexidade computacional, tanto na implementação quanto na ocupação de memória pelos padrões gerados. Este trabalho também revela a importância de capturar-se as informações dinâmicas contidas nos sinais de voz. ) O reconhecedor de voz baseado na transformada discreta cosseno proposto neste trabalho baseia-se fortemente nesse tipo de informação. |