Export Ready — 

Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática

Bibliographic Details
Main Author: Dijkstra, Bauke Alfredo
Publication Date: 2021
Format: Master thesis
Language: por
Source: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Download full: http://repositorio.utfpr.edu.br/jspui/handle/1/24493
Summary: Phoneme recognition is the ability to extract features to recognize the sound units of words and transcribe them. Phoneme recognition applications provides assistance towards automatic speech recognition, speaker identification, pronunciation error identification, and emotion recognition. In order to carry out the recognition of the phonemes, a preprocessing stage is initially applied in the audios, called acoustic processing, which allows the characteristics to be extracted, noise and differences between speakers to be reduced. Then, a training and classification stage using machine learning algorithms in order to identify the phonemes. This work aims to develop a technique for automatic recognition of continuous speech phonemes. In the development of this project the tests were performed with phonemes extracted from the audio datasets such as TIMIT Acoustic-Phonetic Continuous Speech Corpus, which is an English-speaking dataset with time-aligned orthographic, phonetic and word transcripts, and Brazilian Portuguese-speaking datsets such as Sid and LaPS Benchmark 16k.The Brazillian Portuguese datasets are only transcribed in orthographic form, so it was required to make changes in these datasets to form the phonemes in regards to the audio recordings.The Praat software was used along with the EasyAlign plugin and a script was developed to format the program’s outputs, aligning the phonemes in time with the frames. In acoustic processing, the Kaldi Speech Recognition Toolkit was applied to extract the MFCC and filter banks. For the training and classification, of the bases cited, a convolutional neural network was implemented in addition to a long short-term memory network using the Pytorch framework. The result obtained on the TIMIT base presented a phoneme error rate in the core test of 18,11% using filter banks and an error rate of 19,04% using MFCC. On the merged Portuguese bases LaPS Benchmark 16k and Sid, an error rate of 24,96% was obtained using filter banks and 25,54% using MFCC.
id UTFPR-12_9e5f76dfdfe5685f317a2b8cec48124b
oai_identifier_str oai:repositorio.utfpr.edu.br:1/24493
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automáticaPhoneme recognition using convolutional neural networks for automatic phonetic transcriptionSistemas de reconhecimento de padrõesReconhecimento automático da vozFonética acústicaAprendizado do computadorRedes neurais (Computação)Pattern recognition systemsAutomatic speech recognitionPhonetics, AcousticMachine learningNeural networks (Computer science)CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEngenharia/Tecnologia/GestãoPhoneme recognition is the ability to extract features to recognize the sound units of words and transcribe them. Phoneme recognition applications provides assistance towards automatic speech recognition, speaker identification, pronunciation error identification, and emotion recognition. In order to carry out the recognition of the phonemes, a preprocessing stage is initially applied in the audios, called acoustic processing, which allows the characteristics to be extracted, noise and differences between speakers to be reduced. Then, a training and classification stage using machine learning algorithms in order to identify the phonemes. This work aims to develop a technique for automatic recognition of continuous speech phonemes. In the development of this project the tests were performed with phonemes extracted from the audio datasets such as TIMIT Acoustic-Phonetic Continuous Speech Corpus, which is an English-speaking dataset with time-aligned orthographic, phonetic and word transcripts, and Brazilian Portuguese-speaking datsets such as Sid and LaPS Benchmark 16k.The Brazillian Portuguese datasets are only transcribed in orthographic form, so it was required to make changes in these datasets to form the phonemes in regards to the audio recordings.The Praat software was used along with the EasyAlign plugin and a script was developed to format the program’s outputs, aligning the phonemes in time with the frames. In acoustic processing, the Kaldi Speech Recognition Toolkit was applied to extract the MFCC and filter banks. For the training and classification, of the bases cited, a convolutional neural network was implemented in addition to a long short-term memory network using the Pytorch framework. The result obtained on the TIMIT base presented a phoneme error rate in the core test of 18,11% using filter banks and an error rate of 19,04% using MFCC. On the merged Portuguese bases LaPS Benchmark 16k and Sid, an error rate of 24,96% was obtained using filter banks and 25,54% using MFCC.Universidade Tecnológica Federal do Paraná (UTFPR)O reconhecimento de fonemas é a capacidade de extrair características para reconhecer as unidades sonoras das palavras e transcrevê-las. As aplicações do reconhecimento de fonemas são auxiliares no reconhecimento de fala, identificação de locutores, identificação de erros de pronúncia e reconhecimento de emoções. Para realizar esta tarefa aplica-se inicialmente uma etapa de pré-processamento nos áudios, denominado processamento acústico, que permite extrair as características, minimizar ruídos e as diferenças entre locutores. Em seguida, é realizada uma etapa de treinamento e classificação, utilizando algoritmos de aprendizagem de máquina com o objetivo de identificar os fonemas. Este trabalho tem como objetivo desenvolver uma técnica de reconhecimento automático de fonemas de fala contínua. No desenvolvimento, o treinamento e os testes foram realizados com dados extraídos das bases de áudios TIMIT Acoustic-Phonetic Continuous Speech Corpus que possui fala em inglês e possui transcrições ortográficas, fonéticas e de palavras alinhadas com o tempo, e as bases com fala em português brasileiro Sid e LaPS Benchmark 16k. As bases na língua portuguesa do Brasil são apenas transcritas na forma ortográfica, portanto, tornou-se necessário adicionar a transcrição fonética em relação aos áudios. Para isso, utilizou-se o software Praat com o plugin EasyAlign e foi desenvolvido um script para formatar as saídas do programa, alinhando os fonemas no tempo em relação aos frames. No processamento acústico, para extrair os coeficientes cepstrais de frequência de Mel (MFCC) e os filter banks, utilizou-se o Kaldi Speech Recognition Toolkit. Para o treinamento e classificação, das bases citadas, foi implementado uma rede neural convolucional juntamente com uma rede de memória de longo e curto prazo usando o framework Pytorch. O resultado obtido na base TIMIT apresentou uma taxa de erro de fonemas no core test de 18, 11% utilizando filter banks e uma taxa de erro de 19, 04% usando MFCCs. Na união das bases em português LaPS Benchmark 16k e Sid, obteve-se uma taxa de erro de 24, 96% usando filter banks e 25, 54% usando MFCC nos conjuntos de testes.Universidade Tecnológica Federal do ParanáPonta GrossaBrasilPrograma de Pós-Graduação em Ciência da ComputaçãoUTFPRSanches, Ionildo Joséhttps://orcid.org/0000-0003-1012-6961http://lattes.cnpq.br/9727238483923544Sanches, Ionildo Joséhttps://orcid.org/0000-0003-1012-6961http://lattes.cnpq.br/9727238483923544Siqueira, Hugo Valadareshttps://orcid.org/0000-0002-1278-4602http://lattes.cnpq.br/6904980376005290Falate, Rosanehttps://orcid.org/0000-0002-3948-5063http://lattes.cnpq.br/9171690007212041Dijkstra, Bauke Alfredo2021-03-02T19:02:01Z2021-03-02T19:02:01Z2021-01-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfDIJKSTRA, Bauke Alfredo. Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021.http://repositorio.utfpr.edu.br/jspui/handle/1/24493porAttribution-NonCommercial-ShareAlike 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2021-03-03T06:11:43Zoai:repositorio.utfpr.edu.br:1/24493Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2021-03-03T06:11:43Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática
Phoneme recognition using convolutional neural networks for automatic phonetic transcription
title Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática
spellingShingle Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática
Dijkstra, Bauke Alfredo
Sistemas de reconhecimento de padrões
Reconhecimento automático da voz
Fonética acústica
Aprendizado do computador
Redes neurais (Computação)
Pattern recognition systems
Automatic speech recognition
Phonetics, Acoustic
Machine learning
Neural networks (Computer science)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia/Tecnologia/Gestão
title_short Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática
title_full Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática
title_fullStr Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática
title_full_unstemmed Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática
title_sort Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática
author Dijkstra, Bauke Alfredo
author_facet Dijkstra, Bauke Alfredo
author_role author
dc.contributor.none.fl_str_mv Sanches, Ionildo José
https://orcid.org/0000-0003-1012-6961
http://lattes.cnpq.br/9727238483923544
Sanches, Ionildo José
https://orcid.org/0000-0003-1012-6961
http://lattes.cnpq.br/9727238483923544
Siqueira, Hugo Valadares
https://orcid.org/0000-0002-1278-4602
http://lattes.cnpq.br/6904980376005290
Falate, Rosane
https://orcid.org/0000-0002-3948-5063
http://lattes.cnpq.br/9171690007212041
dc.contributor.author.fl_str_mv Dijkstra, Bauke Alfredo
dc.subject.por.fl_str_mv Sistemas de reconhecimento de padrões
Reconhecimento automático da voz
Fonética acústica
Aprendizado do computador
Redes neurais (Computação)
Pattern recognition systems
Automatic speech recognition
Phonetics, Acoustic
Machine learning
Neural networks (Computer science)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia/Tecnologia/Gestão
topic Sistemas de reconhecimento de padrões
Reconhecimento automático da voz
Fonética acústica
Aprendizado do computador
Redes neurais (Computação)
Pattern recognition systems
Automatic speech recognition
Phonetics, Acoustic
Machine learning
Neural networks (Computer science)
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Engenharia/Tecnologia/Gestão
description Phoneme recognition is the ability to extract features to recognize the sound units of words and transcribe them. Phoneme recognition applications provides assistance towards automatic speech recognition, speaker identification, pronunciation error identification, and emotion recognition. In order to carry out the recognition of the phonemes, a preprocessing stage is initially applied in the audios, called acoustic processing, which allows the characteristics to be extracted, noise and differences between speakers to be reduced. Then, a training and classification stage using machine learning algorithms in order to identify the phonemes. This work aims to develop a technique for automatic recognition of continuous speech phonemes. In the development of this project the tests were performed with phonemes extracted from the audio datasets such as TIMIT Acoustic-Phonetic Continuous Speech Corpus, which is an English-speaking dataset with time-aligned orthographic, phonetic and word transcripts, and Brazilian Portuguese-speaking datsets such as Sid and LaPS Benchmark 16k.The Brazillian Portuguese datasets are only transcribed in orthographic form, so it was required to make changes in these datasets to form the phonemes in regards to the audio recordings.The Praat software was used along with the EasyAlign plugin and a script was developed to format the program’s outputs, aligning the phonemes in time with the frames. In acoustic processing, the Kaldi Speech Recognition Toolkit was applied to extract the MFCC and filter banks. For the training and classification, of the bases cited, a convolutional neural network was implemented in addition to a long short-term memory network using the Pytorch framework. The result obtained on the TIMIT base presented a phoneme error rate in the core test of 18,11% using filter banks and an error rate of 19,04% using MFCC. On the merged Portuguese bases LaPS Benchmark 16k and Sid, an error rate of 24,96% was obtained using filter banks and 25,54% using MFCC.
publishDate 2021
dc.date.none.fl_str_mv 2021-03-02T19:02:01Z
2021-03-02T19:02:01Z
2021-01-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv DIJKSTRA, Bauke Alfredo. Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021.
http://repositorio.utfpr.edu.br/jspui/handle/1/24493
identifier_str_mv DIJKSTRA, Bauke Alfredo. Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021.
url http://repositorio.utfpr.edu.br/jspui/handle/1/24493
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-ShareAlike 4.0 International
http://creativecommons.org/licenses/by-nc-sa/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-ShareAlike 4.0 International
http://creativecommons.org/licenses/by-nc-sa/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
Brasil
Programa de Pós-Graduação em Ciência da Computação
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Ponta Grossa
Brasil
Programa de Pós-Graduação em Ciência da Computação
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850497969241980928