Type-2 Fuzzy GMM para verificação de locutor independente de texto

Detalhes bibliográficos
Ano de defesa: 2016
Autor(a) principal: VIEIRA, Sérgio Renan Ferreira
Orientador(a): MATTOS NETO, Paulo Salgado Gomes de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/26875
Resumo: Cada vez mais as corporações e instituições públicas desenvolvem aplicações móveis onde a segurança de autenticação é uma questão crítica. Sistemas biométricos são uma interessante abordagem, uma vez que usam características fisiológicas únicas de um indivíduo para autenticá-lo. A biometria de voz se destaca por não requerer o uso de transdutores adicionais em dispositivos móveis e por ter um modo de captura pouco incômodo para os usuários. Sistemas de autenticação que usam a voz de um usuário (locutor) sem levar em conta o que o mesmo diz são conhecidos como Sistemas de Verificação de Locutores Independente de Texto (SVLIT). Tais sistemas cadastram locuções para treinar o modelo de um locutor que será comparado posteriormente a uma locução de teste na autenticação. Os SVLIT, no entanto, estão sujeitos a operar com locuções de teste e treinamento capturadas em ambientes com níveis de ruído diferentes, aumentando a variabilidade intra-locutor e, consequentemente, diminuindo o desempenho. Esse tipo de discordância entre as locuções é conhecida como variabilidade de sessão. Este trabalho apresenta um novo SVLIT que lida com a variabilidade de sessão combinando o conhecido sistema de verificação GMM-UBM com a teoria de Conjuntos Nebulosos Tipo-2 (T2 FSs - Type-2 Fuzzy Sets) e uma metodologia de treinamento multicondicional. Consideramos que a variabilidade de sessão torna os parâmetros de um GMM incertos à medida que aumenta a discrepância entres os níveis de ruído de ambiente. Os T2 FSs e o GMM são combinados na abordagem conhecida como Type-2 Fuzzy GMM (T2 FGMM), utilizada em problemas de reconhecimento de padrão que usam GMMs cujos valores dos parâmetros são incertos dentro de um intervalo. Esse método, no entanto, exige o conhecimento prévio da amplitude do intervalo, ou seja, o grau de incerteza sobre os parâmetros. O SVLIT proposto utiliza o T2 FGMM realizando a estimação da incerteza. Para isso, foi utilizada uma metodologia de treinamento multicondicional com locuções ruidosas sintetizadas. Dessa maneira, o sistema é capaz de fazer a verificação sem conhecimento prévio do grau de ruído que as locuções de teste poderão ser expostas. Experimentos foram conduzidos com a base de dados MIT Device Speaker Recognition Corpus que é composta por locuções curtas (com uma média de 1,75 segundos de duração) gravadas através de um palmtop em três ambientes com níveis de ruído distintos: escritório silencioso, recepção de hotel e cruzamento de ruas ruidoso. O método proposto mostrou um ganho em Taxa de Erro Igual (EER - Equal Error Rate) de 24,11% comparado ao GMM-UBM, quando treinado com as locuções menos ruidosas e testado com as mais ruidosas.