Detecção de refrão usando correlação sobre a envoltória do som

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: RODRIGUES, Renato Celso Santos
Orientador(a): RAMALHO, Geber Lisboa
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/21122
Resumo: Em aplicações de Preview de serviços de streaming de música, onde uma rápida impressão de um álbum desconhecido é proporcionada pela navegação de suas músicas, a inclusão do refrão no trecho de trinta segundos fornecido para cada música torna a aplicação muito mais precisa e eficaz. O refrão pode também funcionar como uma “miniatura” representativa da música, melhorando o desempenho e a precisão das consultas, se realizadas somente procurando pelos refrãos em vez de se procurar por músicas inteiras. Diante da importância de obter o trecho mais representativo de uma canção, o objetivo de um sistema de detecção de refrão é identificar este segmento ou, mais precisamente, os seus instantes inicial e final. Métodos do Estado da Arte buscam extrair features associadas a notas musicais e timbre como vetores Chroma e MFCC, e a partir destas identificar as repetições entre os segmentos da música, inclusive o refrão. Este tipo de abordagem torna o método pouco robusto no processamento de músicas onde notas musicais e variedade de timbres não são tão presentes, como em estilos musicais mais percussivos. Este trabalho propõe uma mudança de paradigma para a detecção de refrão, baseada na exploração do domínio do tempo em lugar do domínio da frequência, com o objetivo de obter um método mais competitivo no processamento de músicas percussivas. O método proposto elimina a etapa de segmentação, substitui as features harmônicas e timbrais pela envoltória do sinal e utiliza a função de correlação entre as envoltórias das partes da música como métrica de similaridade, tornando o método menos dependente de notas musicais e timbres. Os testes mediram o grau de degeneração das taxas de acertos do método proposto e de uma versão modificada usando vetores de Chroma sobre uma base harmônica e uma base percussiva. Os resultados indicam que a abordagem proposta sofre uma degeneração duas vezes menor que a versão modificada, comprovando a hipótese de que um método de detecção de refrão que explore o domínio do tempo é mais competitivo, ao processar músicas percussivas, que um método limitado à exploração do domínio da frequência.