Uma abordagem para reconhecimento de emoção por expressão facial baseada em redes neurais de convolução
Ano de defesa: | 2019 |
---|---|
Autor(a) principal: | |
Outros Autores: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal do Amazonas
Instituto de Computação Brasil UFAM Programa de Pós-graduação em Informática |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://tede.ufam.edu.br/handle/tede/7320 |
Resumo: | Desenvolver a percepção emocional dos computadores é uma tendência tecnológica. O reconhecimento de emoção compõe sistemas cognitivos com aplicabilidade em diversas áreas. A expressão facial é uma maneira efetiva para reconhecer emoções, sobretudo por ser menos intrusiva na coleta de dados, quando comparada aos outros métodos, e pela facilidade de obter imagens da face diante da popularização das câmeras. Por meio das expressões faciais é possível classificar o grupo das emoções básicas (alegria, medo, surpresa, tristeza, desgosto e raiva) e neutralidade. Atualmente, as redes neurais de convolução (CNN) tem sido o estado da arte para classificação de imagens. Diante desse contexto, esta dissertação apresenta uma abordagem para reconhecer emoções por expressão facial utilizando CNN denominada como Single Shot Facial Expression Recognition (SSFER) e o seu uso em um estudo de caso. Inicialmente, um estudo experimental foi realizado para avaliar quatro detectores de faces em bases de expressões faciais e na VOC-2007. O método MMOD-CNN foi o melhor alcançando 91.89% de acurácia. Posteriormente, um outro estudo experimental foi conduzido a fim de comparar cinco arquiteturas de CNNs alternando quatro classificadores na última camada com intuito de classificar expressões faciais. As CNNs foram: VGGNet, InceptionResNetV2, InceptionV3, MobileNetV2 e ResidualNet, e os classificadores: Softmax, SVM, Random Forest e KNN. A ideia é que a CNN funcione como um extrator de características enviando um vetor unidimensional para o classificador definir a emoção. A melhor combinação foi a VGGNet com SVM alcançando 78.95% de acurácia. Desta forma, a abordagem proposta (SSFER) venceu com uma diferença de 9.74% de acurácia a API da Microsoft Cognitive Services em um comparação avaliando bases de expressões faciais. De um modo geral, as emoções alegria e surpresa foram as que tiveram maiores taxas de precisão. Em contrapartida, as emoções medo e raiva alcançaram as menores taxas de precisão. Um estudo de caso foi executado em um cenário real voltado para educação digital. Participaram vinte e sete estudantes do ensino médio com objetivo de responder um simulado do ENEM em uma plataforma digital. Durante a prova as expressões faciais dos estudantes foram coletadas, assim como, todas as interações com a plataforma. Após o simulado, as expressões faciais foram processadas para correlacionar com as interações de cliques e desempenho no teste. Análises de dados sugerem que a neutralidade pode estar relacionada ao estado de concentração e que estudantes passam a maior parte do tempo no estado de neutralidade. O estado de surpresa pode ser confundido aos bocejos possibilitando o reconhecimento de sonolência. E os estudantes que alcançaram as melhores notas no exame foram os que tiveram menor taxa de detecção de surpresa. Por fim, a abordagem proposta demostrou ser positiva para ser utilizada em aplicações gerais e, em particular, na educação digital. |