[en] CONTINUOUS SPEECH RECOGNITION FOR THE PORTUGUESE USING HIDDEN MARKOV MODELS
Ano de defesa: | 2006 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
MAXWELL
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=8372&idi=1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=8372&idi=2 http://doi.org/10.17771/PUCRio.acad.8372 |
Resumo: | [pt] Esta tese apresenta contribuições par a melhoria de sistemas de reconhecimento de voz contínua, utilizando Modelos de Markov Escondidos. A maioria dessas contribuições são específicas para aplicações que envolvem a língua portuguesa. Inicialmente, são propostos dois inventários reduzidos de unidades fonéticas a partir de características do português brasileiro. São analisadas algumas formas de inicialização e propõe-se um método rápido e eficaz de inicialização dos modelos dessas unidades. Escolhe-se um método de segmentação, a forma de concatenação dos modelos para a formação de modelos de palavras e sentenças e propõe-se um algoritmo eficiente para o treinamento. Resultado de simulações mostram que o desempenho dos dois inventários são comparáveis, qundo utilizados com gramática bigrama. O número de unidades desses inventários é bastante reduzido quando comparado ao inventário das unidades dependentes do contexto mais utilizadas tais como dofones e trifones, entre outras. Como o desempenho de recinhecimento de voz contínua dependem fortemente dos atributos de voz utilizados. examina-se diversos conjuntos de atributos e seu comportamento relativo em reconhecedores baseados na língua portuguesa, no modo independente do locutor. O conjunto de coeficiente PLP com suas primeiras e segundas derivadas apresentam o melhor desempenho. Em seguida é proposto um sistema de reconhecimento de pedidos de ligações telefônicas automáticas que utiliza conhecimentos sintáticos da língua portuguesa e conhecimento dependentes da tarefa. Esse sistema permite a decodificação nõa só de dígitos mas também de números naturais o que o torna bastante amigável ao usuário, permitindo ampla liberdade aos locutores na forma de pedir uma ligação telefônica.Com base em máquinas de estados finitos propostas para a implementação do reconhecimento, ão analisados dois algoritmos de decodificação, o Level Building e o One Pass, e propõe-se um novo algoritm, a partir de modificações no One Pass, mais eficiente na utilização das fontes de conhecimento sitática e dependente da tarefa. O sitems de RVC, em português, também é analisado utilizando- se as sílabas como unidade fonéticas. Testes são realizados no modo dependente e independente do locutor. Conclui-se sobre a viabilidade do seu emprego em reconhecimento de voz contínua baseados na língua portuguesa, em contraste com seu desempenho insatisfatório para a língua inglesa. Finalmente, é analisada a influência das palavras-função (word-functions), no desempenho de reconhecedores para o português. Embora para a língua inglesa, as palavras-unção tenham um papel de fundamental importância no desempenho do sistema de reconhecimento, conclui-se que isso não é verdade para a língua portuguesa. |