Detecção de voz cantada em sinais de áudio polifônicos
Main Author: | |
---|---|
Publication Date: | 2020 |
Format: | Master thesis |
Language: | por |
Source: | Biblioteca Digital de Teses e Dissertações da USP |
Download full: | https://www.teses.usp.br/teses/disponiveis/45/45134/tde-04112020-095115/ |
Summary: | Detecção de voz cantada em sinais de áudio polifônicos é o problema que trata de determinar quais trechos de um sinal musical com diversas fontes sonoras contêm voz cantada. Este é um tópico de pesquisa ativo na área de Recuperação de Informação Musical (MIR) e possui muitas aplicações, incluindo reconhecimento automático de cantor, alinhamento de letra e música, separação de voz cantada e extração de melodias. Neste projeto, o problema de detecção de voz cantada é abordado através do levantamento das técnicas utilizadas na literatura, com o desenvolvimento de um sistema capaz de classificar os segmentos de sinais de áudio em duas classes (os trechos que contêm e os trechos que não contêm voz cantada) e também pela comparação dos resultados de detecção de voz cantada utilizando ferramentas baseadas em aprendizado profundo. Os objetivos gerais são: apresentar a revisão da literatura e construir experimentos a fim de analisar os métodos de classificação e descritores de áudio. Os objetivos específicos são: avaliar as restrições presentes na classificação dos trechos cantados, usar descritores de áudio baseados em aprendizado profundo ainda não aplicados na tarefa e comparar o uso de métodos tradicionais de aprendizado de máquina com as possibilidades apresentadas pelas representações aprendidas automaticamente. A partir de uma série de experimentos, enfrentamos a complexidade do tema e as limitações apresentadas por descritores comumente usados. Ao usar um descritor baseado em aprendizado profundo, observa-se espaço para melhorias na abordagem clássica de aprendizado de máquinas baseada na seleção e combinação de representações tradicionais dos dados musicais na entrada dos algoritmos de aprendizado. |
id |
USP_b3a220f982c3a43ab1c295824d38e23d |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-04112020-095115 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Detecção de voz cantada em sinais de áudio polifônicosSinging voice detection on polyphonic audio signalsAprendizado de máquinaComputação musicalComputer musicDetecção de voz cantadaMachine learningMusic information retrievalRecuperação de informação musicalRepresentações aprendidas automaticamenteRepresentation learningSinging voice detectionDetecção de voz cantada em sinais de áudio polifônicos é o problema que trata de determinar quais trechos de um sinal musical com diversas fontes sonoras contêm voz cantada. Este é um tópico de pesquisa ativo na área de Recuperação de Informação Musical (MIR) e possui muitas aplicações, incluindo reconhecimento automático de cantor, alinhamento de letra e música, separação de voz cantada e extração de melodias. Neste projeto, o problema de detecção de voz cantada é abordado através do levantamento das técnicas utilizadas na literatura, com o desenvolvimento de um sistema capaz de classificar os segmentos de sinais de áudio em duas classes (os trechos que contêm e os trechos que não contêm voz cantada) e também pela comparação dos resultados de detecção de voz cantada utilizando ferramentas baseadas em aprendizado profundo. Os objetivos gerais são: apresentar a revisão da literatura e construir experimentos a fim de analisar os métodos de classificação e descritores de áudio. Os objetivos específicos são: avaliar as restrições presentes na classificação dos trechos cantados, usar descritores de áudio baseados em aprendizado profundo ainda não aplicados na tarefa e comparar o uso de métodos tradicionais de aprendizado de máquina com as possibilidades apresentadas pelas representações aprendidas automaticamente. A partir de uma série de experimentos, enfrentamos a complexidade do tema e as limitações apresentadas por descritores comumente usados. Ao usar um descritor baseado em aprendizado profundo, observa-se espaço para melhorias na abordagem clássica de aprendizado de máquinas baseada na seleção e combinação de representações tradicionais dos dados musicais na entrada dos algoritmos de aprendizado.Singing voice detection in polyphonic audio signals is the problem that deals with determining which segments of a musical signal (with several sound sources) contain singing voice. This is an active topic of research in the field of Music Information Retrieval (MIR) and has various applications, including automatic singer recognition, lyrics alignment, singing voice separation and melody extraction. In this project, the problem of singing voice detection is addressed through the survey of the techniques used in the literature, the development of a system capable of classifying the segments of audio signals in two classes (the sections that contain and the sections that do not contain singing voice) and also by comparing the results of singing voice detection using tools based on deep learning. The general objectives are: to present a literature review and to build experiments in order to analyze classification methods and audio descriptors. The specific objectives are: to evaluate the restrictions present in the classification of the sung excerpts, to use audio descriptors based on deep learning not yet applied to the task and to compare the use of traditional machine learning methods with the possibilities presented by automatically learned representations. By a series of experiments we face the complexity of the theme and the limitations presented by commonly used descriptors. When using a descriptor based on deep learning, it was noticeable that there is room for improvement over classic machine learning approaches, which are based on selection and combination of traditional representations of the music data at the input of learning algorithms.Biblioteca Digitais de Teses e Dissertações da USPQueiroz, Marcelo Gomes deCorrêa, Shayenne Luz Moura2020-10-01info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-04112020-095115/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2020-11-27T18:19:02Zoai:teses.usp.br:tde-04112020-095115Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212020-11-27T18:19:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Detecção de voz cantada em sinais de áudio polifônicos Singing voice detection on polyphonic audio signals |
title |
Detecção de voz cantada em sinais de áudio polifônicos |
spellingShingle |
Detecção de voz cantada em sinais de áudio polifônicos Corrêa, Shayenne Luz Moura Aprendizado de máquina Computação musical Computer music Detecção de voz cantada Machine learning Music information retrieval Recuperação de informação musical Representações aprendidas automaticamente Representation learning Singing voice detection |
title_short |
Detecção de voz cantada em sinais de áudio polifônicos |
title_full |
Detecção de voz cantada em sinais de áudio polifônicos |
title_fullStr |
Detecção de voz cantada em sinais de áudio polifônicos |
title_full_unstemmed |
Detecção de voz cantada em sinais de áudio polifônicos |
title_sort |
Detecção de voz cantada em sinais de áudio polifônicos |
author |
Corrêa, Shayenne Luz Moura |
author_facet |
Corrêa, Shayenne Luz Moura |
author_role |
author |
dc.contributor.none.fl_str_mv |
Queiroz, Marcelo Gomes de |
dc.contributor.author.fl_str_mv |
Corrêa, Shayenne Luz Moura |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Computação musical Computer music Detecção de voz cantada Machine learning Music information retrieval Recuperação de informação musical Representações aprendidas automaticamente Representation learning Singing voice detection |
topic |
Aprendizado de máquina Computação musical Computer music Detecção de voz cantada Machine learning Music information retrieval Recuperação de informação musical Representações aprendidas automaticamente Representation learning Singing voice detection |
description |
Detecção de voz cantada em sinais de áudio polifônicos é o problema que trata de determinar quais trechos de um sinal musical com diversas fontes sonoras contêm voz cantada. Este é um tópico de pesquisa ativo na área de Recuperação de Informação Musical (MIR) e possui muitas aplicações, incluindo reconhecimento automático de cantor, alinhamento de letra e música, separação de voz cantada e extração de melodias. Neste projeto, o problema de detecção de voz cantada é abordado através do levantamento das técnicas utilizadas na literatura, com o desenvolvimento de um sistema capaz de classificar os segmentos de sinais de áudio em duas classes (os trechos que contêm e os trechos que não contêm voz cantada) e também pela comparação dos resultados de detecção de voz cantada utilizando ferramentas baseadas em aprendizado profundo. Os objetivos gerais são: apresentar a revisão da literatura e construir experimentos a fim de analisar os métodos de classificação e descritores de áudio. Os objetivos específicos são: avaliar as restrições presentes na classificação dos trechos cantados, usar descritores de áudio baseados em aprendizado profundo ainda não aplicados na tarefa e comparar o uso de métodos tradicionais de aprendizado de máquina com as possibilidades apresentadas pelas representações aprendidas automaticamente. A partir de uma série de experimentos, enfrentamos a complexidade do tema e as limitações apresentadas por descritores comumente usados. Ao usar um descritor baseado em aprendizado profundo, observa-se espaço para melhorias na abordagem clássica de aprendizado de máquinas baseada na seleção e combinação de representações tradicionais dos dados musicais na entrada dos algoritmos de aprendizado. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-10-01 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-04112020-095115/ |
url |
https://www.teses.usp.br/teses/disponiveis/45/45134/tde-04112020-095115/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1826318431396298752 |