Estimação automática de ritmo para auxiliar surdos no aprendizado da dança do forró
Ano de defesa: | 2022 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal de Viçosa
Ciência da Computação |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://locus.ufv.br//handle/123456789/31750 https://doi.org/10.47328/ufvbbt.2023.165 |
Resumo: | Os Surdos e deficientes auditivos representam cerca de 5% da população mundial. Apesar disso, não gozam das mesmas oportunidades dos ouvintes. Um exemplo disso é o acesso à música e à dança, onde mesmo sendo tão capazes quanto os ouvintes para identificarem sentimentos e seguirem o ritmo de músicas, são estigmatizados como não musicais. Esse estigma acaba por resultar em poucas iniciativas voltadas para a criação de tecnologias que potencializem o contato dos surdos com a musicalidade. O principal trabalho encontrado na literatura consistiu na criação de um modelo baseado em redes neurais capaz de estimar o ritmo de músicas de forró para passar esse ritmo por vibração para Surdos. Apesar de resultados promissores terem sidos encontrados, limitações no banco de dados como pequeno número de amostras, falta de diversidade e imprecisão nas anotações do ritmo, inviabilizam a implantação da abordagem. Neste trabalho são apresentadas iniciativas para viabilizar a construção de um modelo para sinalizar o ritmo para Surdos por meio de vibração. A primeira abordagem foi a adição de músicas com ruído real de um espaço de dança junto com o banco de dados do trabalho anterior, o modelo baseado em redes neurais treinado alcançou erro percentual médio menor que 7%. Apesar deste banco de dados ser ainda pequeno e com anotações manuais, foi observado potencial do modelo para ser utilizado em condições reais. Devido a isso foram realizados trabalhos na direção de aumentar o banco de dados. Um deles é uma revisão de literatura para encontrar técnicas de aumento de dados de áudio. Foram encontradas 30 técnicas usadas em variadas tarefas de classificação de áudio, aumentando em até 30 pp a acurácia dos modelos para datasets pequenos. Além do aumento artificial dos dados, foram reali- zados trabalhos para a criação de um novo banco de dados, com instâncias suficientes para treinar modelos convolucionais. Inicialmente foi criado o Forroset, um banco de dados com 2977 músicas de forró, contendo 40 informações diferentes, dentre elas, os arquivos de áudio em MP3, a popularidade e o BPM, fornecidos pelo Spotify. Por fim, para adicionar a duração do passo base às músicas do Forroset, foi realizado um experimento onde 9 pessoas se filmaram dançando 380 músicas no total e tiveram a duração do passo base estimada por um modelo de visão computacional proposto. Esse modelo conseguiu estimar a duração do passo base com erro percentual médio inferior a 3%. Além das anotações da duração do passo base, foram adicionadas ao Forroset, versões com ruído domestico das músicas dançadas, obtidas através dos áudios dos vídeos, criando assim o Forroset+. Estas iniciativas poderão possibilitar o treinamento de modelos com maior capacidade de generalização. Devido ao maior número de músicas será possível também a utilização de redes neurais profundas como redes convolucionais e recorrentes. Apesar da estrutura fornecida propiciar o treinamento e validação destes modelos, não foram realizados experimentos para verificar se de fato os esforços foram suficientes. Portanto, técnicas desenvolvidas em trabalhos futuros (e.g., redes neurais profundas) deverão ser comparadas aos modelos aqui utilizados, além da avaliação das técnicas de aumento de dados para áudio. Palavras-chave: Aprendizado de Máquinas. Banco de Dados. Dança. Inclusão. |