Detecção de Onsets em notas de músicas instrumentais de piano utilizando representação Pitch e aprendizado de máquina

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Costa, Luciana Rolim
Outros Autores: http://lattes.cnpq.br/4615526264413836
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Amazonas
Faculdade de Tecnologia
Brasil
UFAM
Programa de Pós-graduação em Engenharia Elétrica
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.ufam.edu.br/handle/tede/9816
Resumo: A análise de sinais de música e a extração de informações musicalmente relevantes para construir aplicações musicais fazem parte do campo de pesquisa de recuperação de informação de música (MIR, do inglês music information retrieval ), dentro do qual a tarefa de detecção automática de onsets está inserida. Detectar onsets em sinais de música consiste em detectar os instantes de tempo de início dos eventos musicais contidos no sinal de música e esta tarefa, geralmente, serve de base para construção de aplicações como transcrição automática de música de um ou mais instrumentos musicais, alinhamento de áudio com score, estimação do tempo da música, dentre outros. Nesta dissertação, um sistema de detecção automática de onsets em sinais de música de piano usando aprendizado de máquina é apresentado. No framework proposto, a representação tempo-frequência pitch é utilizada e os classificadores investigados são máquina de vetor de suporte (SVM, do inglês, support vector machine), gradient boosting e rede neural convolucional de uma dimensão (CNN 1D, do inglês, one dimensional convolutional neural network ). Os resultados dos experimentos realizados com as bases de dados BS1 e MAESTRO mostram que, na primeira abordagem, a SVM teve desempenho superior ao gradient boosting enquanto, na segunda abordagem, a métrica sensibilidade foi superior quando as características pitch foram utilizadas invés das características de espectrograma na base BS1.