Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro

SAMPAIO NETO, Nelson Cruz

Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro

Detalhes bibliográficos
Ano de defesa:	2011
Autor(a) principal:	SAMPAIO NETO, Nelson Cruz
Orientador(a):	KLAUTAU JÚNIOR, Aldebaro Barreto da Rocha
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal do Pará
Programa de Pós-Graduação:	Programa de Pós-Graduação em Engenharia Elétrica
Departamento:	Instituto de Tecnologia
País:	Brasil
Palavras-chave em Português:	Reconhecimento automático da voz Síntese da voz Língua portuguesa
Área do conhecimento CNPq:	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA::TELECOMUNICACOES::SISTEMAS DE TELECOMUNICACOES
Link de acesso:	http://repositorio.ufpa.br/jspui/handle/2011/2845
Resumo:	Sistemas de reconhecimento e síntese de voz são constituídos por módulos que dependem da língua e, enquanto existem muitos recursos públicos para alguns idiomas (p.e. Inglês e Japonês), os recursos para Português Brasileiro (PB) ainda são escassos. Outro aspecto é que, para um grande número de tarefas, a taxa de erro dos sistemas de reconhecimento de voz atuais ainda é elevada, quando comparada à obtida por seres humanos. Assim, apesar do sucesso das cadeias escondidas de Markov (HMM), é necessária a pesquisa por novos métodos. Este trabalho tem como motivação esses dois fatos e se divide em duas partes. A primeira descreve o desenvolvimento de recursos e ferramentas livres para reconhecimento e síntese de voz em PB, consistindo de bases de dados de áudio e texto, um dicionário fonético, um conversor grafema-fone, um separador silábico e modelos acústico e de linguagem. Todos os recursos construídos encontram-se publicamente disponíveis e, junto com uma interface de programação proposta, têm sido usados para o desenvolvimento de várias novas aplicações em tempo-real, incluindo um módulo de reconhecimento de voz para a suíte de aplicativos para escritório OpenOffice.org. São apresentados testes de desempenho dos sistemas desenvolvidos. Os recursos aqui produzidos e disponibilizados facilitam a adoção da tecnologia de voz para PB por outros grupos de pesquisa, desenvolvedores e pela indústria. A segunda parte do trabalho apresenta um novo método para reavaliar (rescoring) o resultado do reconhecimento baseado em HMMs, o qual é organizado em uma estrutura de dados do tipo lattice. Mais especificamente, o sistema utiliza classificadores discriminativos que buscam diminuir a confusão entre pares de fones. Para cada um desses problemas binários, são usadas técnicas de seleção automática de parâmetros para escolher a representaçãao paramétrica mais adequada para o problema em questão.

Ferramentas e recursos livres para reconhecimento e síntese de voz em português brasileiro

Registros relacionados