Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática

Dijkstra, Bauke Alfredo

Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática

Detalhes bibliográficos
Ano de defesa:	2021
Autor(a) principal:	Dijkstra, Bauke Alfredo
Orientador(a):	Sanches, Ionildo José
Banca de defesa:	Sanches, Ionildo José , Siqueira, Hugo Valadares , Falate, Rosane
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Tecnológica Federal do Paraná Ponta Grossa
Programa de Pós-Graduação:	Programa de Pós-Graduação em Ciência da Computação
Departamento:	Não Informado pela instituição
País:	Brasil
Palavras-chave em Português:	Sistemas de reconhecimento de padrões Reconhecimento automático da voz Fonética acústica Aprendizado do computador Redes neurais (Computação) Pattern recognition systems Automatic speech recognition Phonetics, Acoustic Machine learning Neural networks (Computer science)
Área do conhecimento CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Link de acesso:	http://repositorio.utfpr.edu.br/jspui/handle/1/24493
Resumo:	O reconhecimento de fonemas é a capacidade de extrair características para reconhecer as unidades sonoras das palavras e transcrevê-las. As aplicações do reconhecimento de fonemas são auxiliares no reconhecimento de fala, identificação de locutores, identificação de erros de pronúncia e reconhecimento de emoções. Para realizar esta tarefa aplica-se inicialmente uma etapa de pré-processamento nos áudios, denominado processamento acústico, que permite extrair as características, minimizar ruídos e as diferenças entre locutores. Em seguida, é realizada uma etapa de treinamento e classificação, utilizando algoritmos de aprendizagem de máquina com o objetivo de identificar os fonemas. Este trabalho tem como objetivo desenvolver uma técnica de reconhecimento automático de fonemas de fala contínua. No desenvolvimento, o treinamento e os testes foram realizados com dados extraídos das bases de áudios TIMIT Acoustic-Phonetic Continuous Speech Corpus que possui fala em inglês e possui transcrições ortográficas, fonéticas e de palavras alinhadas com o tempo, e as bases com fala em português brasileiro Sid e LaPS Benchmark 16k. As bases na língua portuguesa do Brasil são apenas transcritas na forma ortográfica, portanto, tornou-se necessário adicionar a transcrição fonética em relação aos áudios. Para isso, utilizou-se o software Praat com o plugin EasyAlign e foi desenvolvido um script para formatar as saídas do programa, alinhando os fonemas no tempo em relação aos frames. No processamento acústico, para extrair os coeficientes cepstrais de frequência de Mel (MFCC) e os filter banks, utilizou-se o Kaldi Speech Recognition Toolkit. Para o treinamento e classificação, das bases citadas, foi implementado uma rede neural convolucional juntamente com uma rede de memória de longo e curto prazo usando o framework Pytorch. O resultado obtido na base TIMIT apresentou uma taxa de erro de fonemas no core test de 18, 11% utilizando filter banks e uma taxa de erro de 19, 04% usando MFCCs. Na união das bases em português LaPS Benchmark 16k e Sid, obteve-se uma taxa de erro de 24, 96% usando filter banks e 25, 54% usando MFCC nos conjuntos de testes.

Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática

Registros relacionados