Representações profundas para verificação de locutores independente de texto

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: PINHEIRO, Hector Natan Batista
Orientador(a): REN, Tsang Ing
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/38105
Resumo: O desafio no desenvolvimento de sistemas de reconhecimento de locutores consiste em extrair das locuções representações robustas, capazes de distinguir os locutores diante dos mais diversos fatores que podem influenciar na geração dos sinais de voz, como a presença de ruído acústico do ambiente ou as condições físicas do locutor. Este trabalho foca no desenvolvimento de tais representações, levando em consideração a tarefa de verificação independente de texto. Nos últimos anos, diversas abordagens utilizando redes neurais profundas vêm sendo propostas para a geração de representações cada vez mais robustas. Dentre elas, a que mais se destacou consiste nos x-vectors, onde uma rede neural supervisionada é treinada para discriminar locuções, inicialmente descritas através de características espectrais de tempo curto. Uma representação vetorial para a locução é gerada através de uma camada de pooling que agrega os diversos vetores da locução. A partir dessa camada, a rede neural discrimina locuções inteiras utilizando as classes dos locutores que as produziram. A autenticação é realizada ao decidir se dois x-vectors foram produzidos pelo mesmo locutor ou não, através de uma análise probabilística de discriminantes lineares (Gaussian Probabilistic Linear Discriminant Analysis – G-PLDA). Neste trabalho, propomos um conjunto de abordagens capazes de melhorar a qualidade das representações baseadas nos x-vectors. As abordagens possuem o objetivo de tornar as representações geradas pela rede mais apropriadas para o método de comparação GPLDA, que, por sua vez, segue a premissa que as representações dos locutores seguem distribuições condicionais e a priori gaussianas. Primeiramente, propomos camadas de classificação e pooling gaussianos para a geração de representações gaussianas. Em seguida, desenvolvemos um método de regularização variacional para o controle da distribuição a priori dos x-vectors. A função de regularização minimiza a divergência entre a distribuição das representações geradas e uma determinada distribuição desejada, que no nosso caso é a distribuição normal padronizada. Nessa abordagem, uma amostra da distribuição desejada é apresentada à rede e a função de regularização computa uma medida de divergência não paramétrica entre as amostras. As abordagens propostas foram avaliadas utilizando a base de dados Fisher English Training, em um total de oito condições de avaliação, considerando o gênero dos locutores e as durações das locuções de teste. Os métodos foram comparados com a modelagem convencional dos x-vectors e outros métodos presentes na literatura para controle do espaço das representações. Nos resultados obtidos, pôde-se observar que as abordagens propostas geram representações mais adequadas à modelagem G-PLDA, proporcionando ganhos de desempenho de, em média, 11,63% e 15,52% nos valores de Equal Error Rate (EER) e Minimum Detection Cost Function (minDCF), respectivamente.