Explicit representation of note duration improves structural similarity in transformer models

Gabriel Souza Gomes

Explicit representation of note duration improves structural similarity in transformer models

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Gabriel Souza Gomes
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	eng
Instituição de defesa:	Universidade Federal de Minas Gerais Brasil ICEX - INSTITUTO DE CIÊNCIAS EXATAS Programa de Pós-Graduação em Ciência da Computação UFMG
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Music Machine learning Deep learning Creative computing Computação – Teses Aprendizado do computador – Teses Aprendizado profundo – Teses Inteligência computacional – Música – Teses
Link de acesso:	http://hdl.handle.net/1843/77025
Resumo:	Aprendizado profundo demonstrou, recentemente, resultados formidáveis em computação criativa, mesmo para dados complexos. Alguns trabalhos são notórios por criarem imagens de alta resolução impressionantes a partir de entradas de texto, enquanto outros são renomados por escreverem textos longos coerentes e concisos. Mas o mesmo não pode ser dito para criatividade computacional aplicada a composição musical, uma vez que mesmo os melhores trabalhos conseguem gerar resultados com qualidade aceitável apenas para obras curtas. Apesar de parecer mais simples se comparada a imagens de alta resolução ou textos longos, música apresenta desafios únicos devido à natureza de sua estrutura, que contém padrões de repetição (motifs) em escalas de tempo variadas. No cenário atual, modelos com arquitetura transformer são a melhor abordagem para gerar música e ao treinar estes modelos, é necessário escolher entre várias opções de arquitetura e estilos de representação de entrada. Alguns modelos são treinados e testados apenas em datasets com anotações adicionais de estrutura, como tempo, compassos ou frases, sendo que estas anotações são normalmente usadas para melhorar a performance do modelo para gerar tais estruturas. Neste trabalho, questionamos se a arquitetura padrão do MusicTransformer apresenta perda de performance mesmo usando apenas informações MIDI (isto é, sem anotações adicionais de estrutura). Mostramos que uma pequena mudança na representação mais comumente usada resulta em melhorias pequenas, mas significativas. Nossa análise experimental focada em quatro datasets com estilos musicais diferentes (Jazz, Maestro, SNES e Pop) conclui que gerar músicas usando o MusicTransformer e uma representação MIDI que codifica duração de nota explicitamente apresenta melhoria em métricas de estrutura (um fator comumente atribuído a anotações de estrutura ou melhorias em arquitetura) e é corroborada por avaliação humana de qualidade musical. Uma vez que nossa abordagem é aplicável a qualquer dataset MIDI, argumentamos que há mais ganho de performance potencial em geração de músicas usando grande quantidade de dados sem anotação, ao invés de menos dados com maior quantidade de informação.

Explicit representation of note duration improves structural similarity in transformer models

Registros relacionados