Conversão fala-texto em português do Brasil integrando segmentação sub-silábica e vocabulário ilimitado.

Detalhes bibliográficos
Ano de defesa: 1998
Autor(a) principal: Francisco José Fraga Silva
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Instituto Tecnológico de Aeronáutica
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.bd.bibl.ita.br/tde_busca/arquivo.php?codArquivo=2633
Resumo: Desenvolvemos e implementamos um sistem fala-texto com vocabulário ilimitado para o português do Brasil. A primeira parte do sistema, denominada reconhecedor fonético, é capaz de segmentar e reconhecer a fala contínua formada por sílabas com estrutura CV, V, VC e CVC, que perfazem 90% de freqüência em português. A segmentação sub-silábica é realizada por um algoritmo que integra de forma original a técnica dos Modelos Ocultos de Markov (HMM) com regras extraídas da própria estrutura fonética do português brasileiro. O algoritmo divide a fala contínua em unidades sub-silábicas e o reconhecimento fonético destas unidades é feito com uso de HMM contínuos, cujos vetores de observação são formados basicamente por coeficientes Mel-cepstrais. A segunda parte denominada gerador de texto, consiste principalmente num conversor fonológico-grafêmico desenvolvido especificamente para a língua portuguesa falada no Brasil. Esta parte do sistema consegue converter qualquer seqüência fonêmica nos correspondentes grafemas, eliminando as possibilidades ortograficamente incorretas. O desempenho do sistema como um todo foi avaliado com base no texto final gerado a partir de 200 frases pronunciadas em taxa de elocução lenta por um único locutor, para o qual os modelos de Markov foram treinados. Obtivemos uma taxa de reconhecimento de 95,9% para todos os fonemas da língua portuguesa, excetuando as semivogais. Para os mesmos dados, o erro de segmentação silábica máximo foi de 0,83% e o índice para o reconhecimento de palavras, de um vocabulário ilimitado, foi de 87%. Considerando-se até a quinta palavra mais provável, a taxa de acerto das mesmas sobe para 96,2% e a de fonemas para 99%, enquanto que o erro de segmentação cai para 0,52%.