Detecção de voz cantada em sinais de áudio polifônicos

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Corrêa, Shayenne Luz Moura
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-04112020-095115/
Resumo: Detecção de voz cantada em sinais de áudio polifônicos é o problema que trata de determinar quais trechos de um sinal musical com diversas fontes sonoras contêm voz cantada. Este é um tópico de pesquisa ativo na área de Recuperação de Informação Musical (MIR) e possui muitas aplicações, incluindo reconhecimento automático de cantor, alinhamento de letra e música, separação de voz cantada e extração de melodias. Neste projeto, o problema de detecção de voz cantada é abordado através do levantamento das técnicas utilizadas na literatura, com o desenvolvimento de um sistema capaz de classificar os segmentos de sinais de áudio em duas classes (os trechos que contêm e os trechos que não contêm voz cantada) e também pela comparação dos resultados de detecção de voz cantada utilizando ferramentas baseadas em aprendizado profundo. Os objetivos gerais são: apresentar a revisão da literatura e construir experimentos a fim de analisar os métodos de classificação e descritores de áudio. Os objetivos específicos são: avaliar as restrições presentes na classificação dos trechos cantados, usar descritores de áudio baseados em aprendizado profundo ainda não aplicados na tarefa e comparar o uso de métodos tradicionais de aprendizado de máquina com as possibilidades apresentadas pelas representações aprendidas automaticamente. A partir de uma série de experimentos, enfrentamos a complexidade do tema e as limitações apresentadas por descritores comumente usados. Ao usar um descritor baseado em aprendizado profundo, observa-se espaço para melhorias na abordagem clássica de aprendizado de máquinas baseada na seleção e combinação de representações tradicionais dos dados musicais na entrada dos algoritmos de aprendizado.