Descritor de voz invariante ao ruído

Detalhes bibliográficos
Ano de defesa: 2013
Autor(a) principal: Viana, Hesdras Oliveira
Orientador(a): Mello, Carlos Alexandre Barros de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/11842
Resumo: Extrair características da fala é uma etapa fundamental para os sistemas de reconhecimento de voz. É através dos descritores que extraímos a energia do sinal, a frequência fundamental (pitch) e a estrutura dos formantes que serão utilizados como identificadores para cada palavra pronunciada. Descritores como MFCC (Mel-Frequency Cepstral Coefficient), RASTA-PLP (RelAtive SpecTrAl - Perceptual Linear Predictive) e PNCC (Power Normalized Cepstral Coefficient) são muitos utilizados no estado da arte na área de reconhecimento de voz, porém, essas técnicas não conseguem apresentar bons resultados quando expostos a amostras com presença de ruído, variabilidade de locutor e fala contínua. O objetivo deste trabalho é desenvolver um descritor para a fala que seja invariante ao ruído, ambiente e locução. Para isso, fizemos um estudo dos descritores de voz mais utilizados na literatura, identificando as vantagens e desvantagens, expondo a situações variadas. Para avaliação das técnicas, utilizamos a base NOIZEUS (Noisy Speech Corpus) e dois classificadores: HMM (Hidden Markov Models) e SVM (Support Vector Machine). Essa base tem como característica a presença de ruído variando de 0dB, 5dB, 10dB e 15dB, gravada em diversos ambientes. A utilização dos classificadores serviu para validar os descritores de voz. O descritor proposto, chamado de MINERS (Model Invariant to Noise and Environment and Robust for Speech), apresentou melhores resultados entre todos os descritores avaliados (MFCC, MFCC combinado com Wavelet Denoising, RASTAPLP e PNCC). A abordagem que obteve maior sucesso foi a utilização do MINERS com o classificador SVM.