Uma metodologia para criação de grandes bases de voz para linguagens com recursos escassos, e inclusão social por conversão de sotaques para PT-BRal

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Lima, Thales Aguiar de
Orientador(a): Abreu, Marjory Cristiany da Costa
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Rio Grande do Norte
Programa de Pós-Graduação: PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufrn.br/handle/123456789/52764
Resumo: A voz é parte crucial na nossa forma de comunicação como uma espécie e combinada com a constante evolução das mensagens instantâneas no formato de voz, assim como os chatbots, sua importância se torna ainda maior. Enquanto a maioria das tecnologias de voz alcançaram altos valores de acurácia, eles falham quando testados em sotaques que desviam do “padrão” de uma linguagem. Isso se torna ainda mais preocupante para linguagens que possuem poucos dados e uma pesquisa escassa, como o Português Brasileiro. Em paralelo, o desenvolvimento de ferramentas baseadas em Inteligência Artificial são cada vez mais aceitos e estão mais presentes nas nossas vidas, mesmo que nem sempre sejam notados. O uso de um sotaque “padrão” combinado com o avanço da Inteligência Artificial para sistemas baseados em voz, além da insuficiência de dados para o Português Brasileiro inspiraram os três objetivos desse trabalho. Portanto, propomos explorar novas formas de Conversão de Sotaques para o Português Brasileiro ao adaptar modelos para converter do sotaque paulistano para o nordestino. O segundo é realizar uma análise acústica dos sotaques, de forma abrangente cobrindo o território nacional, encontrando e formalizando possíveis diferenças entre eles. Finalmente, propomos coletar e disponibilizar uma base de dados em voz para o Português Brasileiro. A partir de um método que explora a disponibilidade de dados e informações em plataformas de vídeo, a base faz o download automático de vídeos do TEDx Talks. Essas pequenas apresentações são uma fonte confiável e limpa de dados as quais possuem transcrições automaticamente geradas e humanas