Indentificação de locutores baseada em aprendizagem não-supervisionada de características

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: PORPINO, Thyago Neves
Orientador(a): REN, Tsang Ing
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/28365
Resumo: A aprendizagem de máquina vem sendo usada nas mais diversas áreas da inteligência artificial, porém sua aplicação costumava depender em grande parte da construção manual de bons extratores de características, já que uma representação com baixo poder discriminatório pode limitar os resultados obtidos por um classificador. Nos últimos anos, a pesquisa sobre modelos não supervisionados, e mais especificamente, aqueles que possuem uma arquitetura profunda (i.e. deep learning) vêm obtendo ótimos resultados em várias áreas de aplicação. Essa revolução, é essencialmente, uma quebra do paradigma clássico de aprendizagem, onde as características eram projetadas por seres humanos, para um novo paradigma, onde os extratores de características também estão sujeitos à aprendizagem automática. Essa dissertação tem por objetivo analisar o desempenho de um modelo nãosupervisionado hierárquico, conhecido como Convolutional Deep Belief Network (CDBN), no problema de identificação de locutor em bases de áudio ruidosas. O desempenho dessa técnica em extrair características relevantes de forma não-supervisionada foi avaliado nas bases TIMIT (sem ruído) e MIT (com ruído). Experimentos com transferência de aprendizado foram realizados, onde o modelo não-supervisionado é treinado com os dados de uma base, e as características extraídas são avaliadas com os dados de outra base. Os experimentos mostraram que a CDBN consegue aprender características com bom poder discriminatório em bases simples como a TIMIT, porém o aprendizado em uma base ruidosa não se mostrou tão promissor, e mais experimentos são necessários para investigar este problema..