[en] AN EVALUATION OF BIMODAL RECOGNITION SYSTEMS BASED ON VOICE AND FACIAL IMAGES

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: ABEL SEBASTIÁN SANTAMARINA MACIÁ
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=29315&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=29315&idi=2
http://doi.org/10.17771/PUCRio.acad.29315
Resumo: [pt] Esta dissertação tem como objetivo avaliar os métodos de fusão de escores mais importantes na combinação de dois sistemas uni-modais de reconhecimento em voz e imagens faciais. Para cada sistema uni-modal foram implementadas duas técnicas de classificação: o GMM/UBM e o I-Vetor/GPLDA para voz e o GMM/UBM e um classificador baseado em LBP para imagens faciais. Estes sistemas foram combinados entre eles, sendo 4 combinações testadas. Os métodos de fusão de escores escolhidos se dividem em três grupos: Fusão baseada em densidade, fusão baseada em transformação e fusão baseada em classificadores, e foram testadas algumas variantes para cada grupo. Os métodos foram avaliados em modo de verificação, usando duas bases de dados, uma base virtual formada por duas bases uni-modais e outra base bimodal. O resultado de cada técnica bimodal empregada foi comparado com os resultados das técnicas uni-modais, percebendo-se ganhos significativos na acurácia de reconhecimento. As técnicas de fusão baseadas em densidade mostraram os melhores resultados entre todas as outras técnicas, mais apresentaram uma maior complexidade computacional por causa do processo de estimação da densidade.