Modelo adaptativo para reconhecimento de fala com reconstrução de características ausentes

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: VIANA, Hesdras Oliveira
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
UFPE
Brasil
Programa de Pos Graduacao em Ciencia da Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/26788
Resumo: A presença de diferentes tipos e intensidades de ruídos nos sinais da fala, têm sido um desafio para definir um modelo para o reconhecimento automático da fala. Neste sentido, estuda-se a “reconstrução de características ausentes”, que é um método de compensação, cujo objetivo é melhorar a robustez dos algoritmos de reconhecimento da fala em relação aos ruídos. Um modelo convencional para reconstrução de características ausentes utiliza características acústicas e métodos estatísticos para melhorar o reconhecimento da fala. No entanto, para este modelo, a taxa de acerto diminui quando o ruído presente no sinal é diferente do que foi utilizado no treinamento. Neste trabalho, um modelo adaptativo para reconhecimento da fala com reconstrução de características ausentes foi proposto. Para isso, foi utilizada uma nova abordagem para identificar as características articulatórias, através do pitch e do Mapa Auto-Organizável, e uma rede neural com topologia variante no tempo (LARFSOM) para reconstruir as características ausentes. O objetivo desse modelo é reconhecer a fala em sistemas online (tempo real) e offline que possam se modificar automaticamente sempre que for necessário. Assim, espera-se que o modelo seja independente de locutor. Para avaliar o modelo proposto, utilizamos as bases TIMIT e Aurora 2. Como resultados, foram obtidas uma taxa de erro médio de reconhecimento da fala de 6,96% para a base TIMIT e 4,46% para a base Aurora 2. Os experimentos realizados mostram que, mesmo sem utilizar um conhecimento prévio do sinal (oráculo), o modelo apresentou estabilidade (em relação a taxa de erro médio) quando existe presença ou ausência de ruído no sinal, bem como, na existência de locutores com diferentes gêneros e sotaques pronunciando frases com diferentes tamanhos.