Export Ready — 

Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro

Bibliographic Details
Main Author: Gris, Lucas Rafael Stefanel
Publication Date: 2021
Format: Bachelor thesis
Language: por
Source: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Download full: http://repositorio.utfpr.edu.br/jspui/handle/1/29999
Summary: Deep learning techniques have been shown to be efficient in various tasks, especially in the development of speech recognition systems, that is, systems that aim to transcribe a sentence in audio in a sequence of words. Despite the progress in the area, its development can still be considered a difficult task, especially when there is a lack of data available, as in Brazilian Portuguese. In this sense, this work aims to validate the development of an Automatic Speech Recognition using only open available audio data, from the fine-tuning of the Wav2Vec 2.0 XLSR-53 model pre-trained in many languages, for the Brazilian Portuguese. The final obtained model presents a WER of 11.95%, 13% less than the best open ASR model for Brazilian Portuguese available, which is a promising result in the area. In general, this work validates the use of self-supervising learning techniques, in special, the use of the Wav2vec 2.0 architecture in the development of robust ASRs, even when there is a few available data, and also exposes possible enhancements that can improve even more the obtained result.
id UTFPR-12_5eb59e94e06fa744f252907221f02fde
oai_identifier_str oai:repositorio.utfpr.edu.br:1/29999
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiroSpeech recognition using WAV2VEC 2.0 for brazilian portugueseSistemas de reconhecimento de padrõesRedes neurais (Computação)Reconhecimento automático da vozPattern recognition systemsNeural networks (Computer science)Automatic speech recognitionCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAODeep learning techniques have been shown to be efficient in various tasks, especially in the development of speech recognition systems, that is, systems that aim to transcribe a sentence in audio in a sequence of words. Despite the progress in the area, its development can still be considered a difficult task, especially when there is a lack of data available, as in Brazilian Portuguese. In this sense, this work aims to validate the development of an Automatic Speech Recognition using only open available audio data, from the fine-tuning of the Wav2Vec 2.0 XLSR-53 model pre-trained in many languages, for the Brazilian Portuguese. The final obtained model presents a WER of 11.95%, 13% less than the best open ASR model for Brazilian Portuguese available, which is a promising result in the area. In general, this work validates the use of self-supervising learning techniques, in special, the use of the Wav2vec 2.0 architecture in the development of robust ASRs, even when there is a few available data, and also exposes possible enhancements that can improve even more the obtained result.Técnicas de aprendizado profundo tem se mostrado muito eficientes nas mais diversas tarefas, em especial, no desenvolvimento de sistemas de reconhecimento de voz, isto é, sistemas que procuram transcrever sentenças em áudio em sequências de palavras ou textos. Apesar do avanço na área, seu desenvolvimento ainda pode ser considerado uma tarefa difícil, especialmente quando existem poucos dados abertos disponíveis, como no Português Brasileiro. Nesse cenário, este trabalho apresenta o objetivo de validar o desenvolvimento de um reconhecedor de voz utilizando somente bases abertas disponíveis, a partir do ajuste do modelo Wav2Vec 2.0 XLSR-53 pré-treinado em muitas línguas, para o Português Brasileiro. O modelo final obtido apresenta um WER de 11,95%, 13% a menos que o melhor modelo aberto para o Português Brasileiro disponível, o que é um resultado promissor na área. Em suma, este trabalho valida a utilização das técnicas de aprendizado auto-supervisionado, em especial, a utilização da arquitetura Wav2vec 2.0, no desenvolvimento de ASRs robustos, mesmo quando há poucos dados disponíveis, e também expõe possíveis melhorias que podem aprimorar ainda mais o resultado obtido.Universidade Tecnológica Federal do ParanáMedianeiraBrasilCiência da ComputaçãoUTFPRCandido Junior, ArnaldoSoares, Anderson da SilvaAikes Junior, JorgePaula Filho, Pedro Luiz deCandido Junior, ArnaldoGris, Lucas Rafael Stefanel2022-10-24T16:54:53Z2022-10-24T16:54:53Z2021-05-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfGRIS, Lucas Rafael Stefanel. Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2021.http://repositorio.utfpr.edu.br/jspui/handle/1/29999porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2022-10-25T06:05:45Zoai:repositorio.utfpr.edu.br:1/29999Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2022-10-25T06:05:45Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
Speech recognition using WAV2VEC 2.0 for brazilian portuguese
title Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
spellingShingle Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
Gris, Lucas Rafael Stefanel
Sistemas de reconhecimento de padrões
Redes neurais (Computação)
Reconhecimento automático da voz
Pattern recognition systems
Neural networks (Computer science)
Automatic speech recognition
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
title_full Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
title_fullStr Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
title_full_unstemmed Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
title_sort Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro
author Gris, Lucas Rafael Stefanel
author_facet Gris, Lucas Rafael Stefanel
author_role author
dc.contributor.none.fl_str_mv Candido Junior, Arnaldo
Soares, Anderson da Silva
Aikes Junior, Jorge
Paula Filho, Pedro Luiz de
Candido Junior, Arnaldo
dc.contributor.author.fl_str_mv Gris, Lucas Rafael Stefanel
dc.subject.por.fl_str_mv Sistemas de reconhecimento de padrões
Redes neurais (Computação)
Reconhecimento automático da voz
Pattern recognition systems
Neural networks (Computer science)
Automatic speech recognition
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Sistemas de reconhecimento de padrões
Redes neurais (Computação)
Reconhecimento automático da voz
Pattern recognition systems
Neural networks (Computer science)
Automatic speech recognition
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Deep learning techniques have been shown to be efficient in various tasks, especially in the development of speech recognition systems, that is, systems that aim to transcribe a sentence in audio in a sequence of words. Despite the progress in the area, its development can still be considered a difficult task, especially when there is a lack of data available, as in Brazilian Portuguese. In this sense, this work aims to validate the development of an Automatic Speech Recognition using only open available audio data, from the fine-tuning of the Wav2Vec 2.0 XLSR-53 model pre-trained in many languages, for the Brazilian Portuguese. The final obtained model presents a WER of 11.95%, 13% less than the best open ASR model for Brazilian Portuguese available, which is a promising result in the area. In general, this work validates the use of self-supervising learning techniques, in special, the use of the Wav2vec 2.0 architecture in the development of robust ASRs, even when there is a few available data, and also exposes possible enhancements that can improve even more the obtained result.
publishDate 2021
dc.date.none.fl_str_mv 2021-05-05
2022-10-24T16:54:53Z
2022-10-24T16:54:53Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv GRIS, Lucas Rafael Stefanel. Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2021.
http://repositorio.utfpr.edu.br/jspui/handle/1/29999
identifier_str_mv GRIS, Lucas Rafael Stefanel. Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2021.
url http://repositorio.utfpr.edu.br/jspui/handle/1/29999
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Medianeira
Brasil
Ciência da Computação
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Medianeira
Brasil
Ciência da Computação
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850497923038576640