Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática
| Main Author: | |
|---|---|
| Publication Date: | 2021 |
| Format: | Master thesis |
| Language: | por |
| Source: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| Download full: | http://repositorio.utfpr.edu.br/jspui/handle/1/24493 |
Summary: | Phoneme recognition is the ability to extract features to recognize the sound units of words and transcribe them. Phoneme recognition applications provides assistance towards automatic speech recognition, speaker identification, pronunciation error identification, and emotion recognition. In order to carry out the recognition of the phonemes, a preprocessing stage is initially applied in the audios, called acoustic processing, which allows the characteristics to be extracted, noise and differences between speakers to be reduced. Then, a training and classification stage using machine learning algorithms in order to identify the phonemes. This work aims to develop a technique for automatic recognition of continuous speech phonemes. In the development of this project the tests were performed with phonemes extracted from the audio datasets such as TIMIT Acoustic-Phonetic Continuous Speech Corpus, which is an English-speaking dataset with time-aligned orthographic, phonetic and word transcripts, and Brazilian Portuguese-speaking datsets such as Sid and LaPS Benchmark 16k.The Brazillian Portuguese datasets are only transcribed in orthographic form, so it was required to make changes in these datasets to form the phonemes in regards to the audio recordings.The Praat software was used along with the EasyAlign plugin and a script was developed to format the program’s outputs, aligning the phonemes in time with the frames. In acoustic processing, the Kaldi Speech Recognition Toolkit was applied to extract the MFCC and filter banks. For the training and classification, of the bases cited, a convolutional neural network was implemented in addition to a long short-term memory network using the Pytorch framework. The result obtained on the TIMIT base presented a phoneme error rate in the core test of 18,11% using filter banks and an error rate of 19,04% using MFCC. On the merged Portuguese bases LaPS Benchmark 16k and Sid, an error rate of 24,96% was obtained using filter banks and 25,54% using MFCC. |
| id |
UTFPR-12_9e5f76dfdfe5685f317a2b8cec48124b |
|---|---|
| oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/24493 |
| network_acronym_str |
UTFPR-12 |
| network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository_id_str |
|
| spelling |
Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automáticaPhoneme recognition using convolutional neural networks for automatic phonetic transcriptionSistemas de reconhecimento de padrõesReconhecimento automático da vozFonética acústicaAprendizado do computadorRedes neurais (Computação)Pattern recognition systemsAutomatic speech recognitionPhonetics, AcousticMachine learningNeural networks (Computer science)CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOEngenharia/Tecnologia/GestãoPhoneme recognition is the ability to extract features to recognize the sound units of words and transcribe them. Phoneme recognition applications provides assistance towards automatic speech recognition, speaker identification, pronunciation error identification, and emotion recognition. In order to carry out the recognition of the phonemes, a preprocessing stage is initially applied in the audios, called acoustic processing, which allows the characteristics to be extracted, noise and differences between speakers to be reduced. Then, a training and classification stage using machine learning algorithms in order to identify the phonemes. This work aims to develop a technique for automatic recognition of continuous speech phonemes. In the development of this project the tests were performed with phonemes extracted from the audio datasets such as TIMIT Acoustic-Phonetic Continuous Speech Corpus, which is an English-speaking dataset with time-aligned orthographic, phonetic and word transcripts, and Brazilian Portuguese-speaking datsets such as Sid and LaPS Benchmark 16k.The Brazillian Portuguese datasets are only transcribed in orthographic form, so it was required to make changes in these datasets to form the phonemes in regards to the audio recordings.The Praat software was used along with the EasyAlign plugin and a script was developed to format the program’s outputs, aligning the phonemes in time with the frames. In acoustic processing, the Kaldi Speech Recognition Toolkit was applied to extract the MFCC and filter banks. For the training and classification, of the bases cited, a convolutional neural network was implemented in addition to a long short-term memory network using the Pytorch framework. The result obtained on the TIMIT base presented a phoneme error rate in the core test of 18,11% using filter banks and an error rate of 19,04% using MFCC. On the merged Portuguese bases LaPS Benchmark 16k and Sid, an error rate of 24,96% was obtained using filter banks and 25,54% using MFCC.Universidade Tecnológica Federal do Paraná (UTFPR)O reconhecimento de fonemas é a capacidade de extrair características para reconhecer as unidades sonoras das palavras e transcrevê-las. As aplicações do reconhecimento de fonemas são auxiliares no reconhecimento de fala, identificação de locutores, identificação de erros de pronúncia e reconhecimento de emoções. Para realizar esta tarefa aplica-se inicialmente uma etapa de pré-processamento nos áudios, denominado processamento acústico, que permite extrair as características, minimizar ruídos e as diferenças entre locutores. Em seguida, é realizada uma etapa de treinamento e classificação, utilizando algoritmos de aprendizagem de máquina com o objetivo de identificar os fonemas. Este trabalho tem como objetivo desenvolver uma técnica de reconhecimento automático de fonemas de fala contínua. No desenvolvimento, o treinamento e os testes foram realizados com dados extraídos das bases de áudios TIMIT Acoustic-Phonetic Continuous Speech Corpus que possui fala em inglês e possui transcrições ortográficas, fonéticas e de palavras alinhadas com o tempo, e as bases com fala em português brasileiro Sid e LaPS Benchmark 16k. As bases na língua portuguesa do Brasil são apenas transcritas na forma ortográfica, portanto, tornou-se necessário adicionar a transcrição fonética em relação aos áudios. Para isso, utilizou-se o software Praat com o plugin EasyAlign e foi desenvolvido um script para formatar as saídas do programa, alinhando os fonemas no tempo em relação aos frames. No processamento acústico, para extrair os coeficientes cepstrais de frequência de Mel (MFCC) e os filter banks, utilizou-se o Kaldi Speech Recognition Toolkit. Para o treinamento e classificação, das bases citadas, foi implementado uma rede neural convolucional juntamente com uma rede de memória de longo e curto prazo usando o framework Pytorch. O resultado obtido na base TIMIT apresentou uma taxa de erro de fonemas no core test de 18, 11% utilizando filter banks e uma taxa de erro de 19, 04% usando MFCCs. Na união das bases em português LaPS Benchmark 16k e Sid, obteve-se uma taxa de erro de 24, 96% usando filter banks e 25, 54% usando MFCC nos conjuntos de testes.Universidade Tecnológica Federal do ParanáPonta GrossaBrasilPrograma de Pós-Graduação em Ciência da ComputaçãoUTFPRSanches, Ionildo Joséhttps://orcid.org/0000-0003-1012-6961http://lattes.cnpq.br/9727238483923544Sanches, Ionildo Joséhttps://orcid.org/0000-0003-1012-6961http://lattes.cnpq.br/9727238483923544Siqueira, Hugo Valadareshttps://orcid.org/0000-0002-1278-4602http://lattes.cnpq.br/6904980376005290Falate, Rosanehttps://orcid.org/0000-0002-3948-5063http://lattes.cnpq.br/9171690007212041Dijkstra, Bauke Alfredo2021-03-02T19:02:01Z2021-03-02T19:02:01Z2021-01-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfDIJKSTRA, Bauke Alfredo. Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021.http://repositorio.utfpr.edu.br/jspui/handle/1/24493porAttribution-NonCommercial-ShareAlike 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-sa/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2021-03-03T06:11:43Zoai:repositorio.utfpr.edu.br:1/24493Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2021-03-03T06:11:43Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
| dc.title.none.fl_str_mv |
Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática Phoneme recognition using convolutional neural networks for automatic phonetic transcription |
| title |
Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática |
| spellingShingle |
Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática Dijkstra, Bauke Alfredo Sistemas de reconhecimento de padrões Reconhecimento automático da voz Fonética acústica Aprendizado do computador Redes neurais (Computação) Pattern recognition systems Automatic speech recognition Phonetics, Acoustic Machine learning Neural networks (Computer science) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia/Tecnologia/Gestão |
| title_short |
Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática |
| title_full |
Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática |
| title_fullStr |
Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática |
| title_full_unstemmed |
Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática |
| title_sort |
Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática |
| author |
Dijkstra, Bauke Alfredo |
| author_facet |
Dijkstra, Bauke Alfredo |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Sanches, Ionildo José https://orcid.org/0000-0003-1012-6961 http://lattes.cnpq.br/9727238483923544 Sanches, Ionildo José https://orcid.org/0000-0003-1012-6961 http://lattes.cnpq.br/9727238483923544 Siqueira, Hugo Valadares https://orcid.org/0000-0002-1278-4602 http://lattes.cnpq.br/6904980376005290 Falate, Rosane https://orcid.org/0000-0002-3948-5063 http://lattes.cnpq.br/9171690007212041 |
| dc.contributor.author.fl_str_mv |
Dijkstra, Bauke Alfredo |
| dc.subject.por.fl_str_mv |
Sistemas de reconhecimento de padrões Reconhecimento automático da voz Fonética acústica Aprendizado do computador Redes neurais (Computação) Pattern recognition systems Automatic speech recognition Phonetics, Acoustic Machine learning Neural networks (Computer science) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia/Tecnologia/Gestão |
| topic |
Sistemas de reconhecimento de padrões Reconhecimento automático da voz Fonética acústica Aprendizado do computador Redes neurais (Computação) Pattern recognition systems Automatic speech recognition Phonetics, Acoustic Machine learning Neural networks (Computer science) CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Engenharia/Tecnologia/Gestão |
| description |
Phoneme recognition is the ability to extract features to recognize the sound units of words and transcribe them. Phoneme recognition applications provides assistance towards automatic speech recognition, speaker identification, pronunciation error identification, and emotion recognition. In order to carry out the recognition of the phonemes, a preprocessing stage is initially applied in the audios, called acoustic processing, which allows the characteristics to be extracted, noise and differences between speakers to be reduced. Then, a training and classification stage using machine learning algorithms in order to identify the phonemes. This work aims to develop a technique for automatic recognition of continuous speech phonemes. In the development of this project the tests were performed with phonemes extracted from the audio datasets such as TIMIT Acoustic-Phonetic Continuous Speech Corpus, which is an English-speaking dataset with time-aligned orthographic, phonetic and word transcripts, and Brazilian Portuguese-speaking datsets such as Sid and LaPS Benchmark 16k.The Brazillian Portuguese datasets are only transcribed in orthographic form, so it was required to make changes in these datasets to form the phonemes in regards to the audio recordings.The Praat software was used along with the EasyAlign plugin and a script was developed to format the program’s outputs, aligning the phonemes in time with the frames. In acoustic processing, the Kaldi Speech Recognition Toolkit was applied to extract the MFCC and filter banks. For the training and classification, of the bases cited, a convolutional neural network was implemented in addition to a long short-term memory network using the Pytorch framework. The result obtained on the TIMIT base presented a phoneme error rate in the core test of 18,11% using filter banks and an error rate of 19,04% using MFCC. On the merged Portuguese bases LaPS Benchmark 16k and Sid, an error rate of 24,96% was obtained using filter banks and 25,54% using MFCC. |
| publishDate |
2021 |
| dc.date.none.fl_str_mv |
2021-03-02T19:02:01Z 2021-03-02T19:02:01Z 2021-01-28 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
DIJKSTRA, Bauke Alfredo. Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021. http://repositorio.utfpr.edu.br/jspui/handle/1/24493 |
| identifier_str_mv |
DIJKSTRA, Bauke Alfredo. Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021. |
| url |
http://repositorio.utfpr.edu.br/jspui/handle/1/24493 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-ShareAlike 4.0 International http://creativecommons.org/licenses/by-nc-sa/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Attribution-NonCommercial-ShareAlike 4.0 International http://creativecommons.org/licenses/by-nc-sa/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Ponta Grossa Brasil Programa de Pós-Graduação em Ciência da Computação UTFPR |
| publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Ponta Grossa Brasil Programa de Pós-Graduação em Ciência da Computação UTFPR |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
| instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
| instacron_str |
UTFPR |
| institution |
UTFPR |
| reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
| repository.mail.fl_str_mv |
riut@utfpr.edu.br || sibi@utfpr.edu.br |
| _version_ |
1850497969241980928 |