Reconhecimento de indivíduos multimodal (face e voz): análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Negreiro, João Victor Campos de
Outros Autores: http://lattes.cnpq.br/6917188695281102
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Amazonas
Faculdade de Tecnologia
Brasil
UFAM
Programa de Pós-graduação em Engenharia Elétrica
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://tede.ufam.edu.br/handle/tede/9241
Resumo: Os seres humanos utilizam características do corpo como rosto, voz e olhos em conjunto com outras informações contextuais para se reconhecerem. O reconhecimento biométrico busca identificar um indivíduo utilizando características comportamentais, físicas ou psicológicas. Esse trabalho apresenta uma análise comparativa entre uma abordagem de aprendizado de máquina clássica e uma proposta utilizando rede neural profunda na atividade de reconhecimento de indivíduo. Utilizaram-se dois modos biométricos: face e voz. Estes dados foram obtidos da base de dados bimodal MOBIO (MCCOOL et al, 2012). Utilizaram-se 50 indivíduos, sendo 37 homens e 13 mulheres. Aplicou-se um pré-processamento nas imagens, extraindo a face, padronizando em 64x80 e convertendo para monocromática. Foi utilizado um autoencoder para obter uma representação reduzida dos dados da face. Para voz, optou-se por um detector de atividade para classificar trechos de áudios com ou sem voz. Extraíram-se coeficientes Mel-Cepstrais e seus coeficientes derivados, compondo 39 coeficientes. Foram desenvolvidos modelos unimodais e multimodais de identificação biométrica, totalizando 6 arquiteturas. O modelo multimodal com técnicas de aprendizagem de máquina possui uma etapa fusão à nível de pontuação e aprendizado por quantização vetorial (LVQ). O modelo multimodal com técnicas de aprendizado profundo de máquina possui uma fusão a nível de característica e uma rede neural convolucional (CNN). Testaram-se as arquiteturas propostas em diversos cenários de clusters, quantidade de frames de áudio, dimensão da camada de codificação, quantidade de coeficientes MFCCs, regularização e otimizadores. Avaliaram-se os sistemas através da área sobre a curva ROC (AUC-ROC), taxa de verdadeiros positivos e taxa de falsos positivos e o limiar do melhor ponto de operação. Além disso, mediu-se o tempo de treinamento e testes das redes elaboradas. Os resultados mostram que para a proposta multimodal com LVQ foi obtido AUC-ROC de 0,98 e a proposta multimodal com CNN teve um valor de AUC-ROC de 0,99. Os resultados apontaram que a utilização de aprendizagem profunda produz melhores desempenhos, além de treinamentos mais otimizados. Assim, as arquiteturas propostas neste trabalho podem constituir um bom ponto de partida para implementação de um sistema robusto de identificação automática de indivíduos.