Reconhecimento de voz e de locutor em ambientes ruidosos : comparação das técnicas MFCC e ZCPA

Detalhes bibliográficos
Ano de defesa: 2008
Autor(a) principal: Cuadros, Carlos Daniel Riquelme
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Programa de Pós-graduação em Engenharia de Telecomunicações
Engenharia de Telecomunicações
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Voz
Link de acesso: https://app.uff.br/riuff/handle/1/17866
Resumo: This work discusses the comparison between two features extraction techniques for speech signals: the Mel-Frequency Cepstral Coefficients (MFCC) and the Zero-Crossings with Peak Amplitudes (ZCPA). Hidden Markov Models (HMM) and different corpora are employed for this comparison. The application of the ZCPA technique is highlighted and its speaker recognition performance is particularly evaluated in noisy environments. It is figured out that the ZCPA technique is more robust to additive noise than the MFCC; also, the types of sentences that help the task of speaker recognition are thoroughly discussed. Special attention is given to the application of ZCPA to the widely known YOHO corpus. The signals from this corpus were segmented in isolated digits and noise was added to each digit. Many scenarios are addressed, including: isolated digits, concatenated digits, and complete sentence, with and without noise.