Reconhecimento de emoções em sinais de fala usando transferência de aprendizado
Ano de defesa: | 2019 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade do Estado do Rio de Janeiro
Centro de Tecnologia e Ciências::Faculdade de Engenharia BR UERJ Programa de Pós-Graduação em Engenharia Eletrônica |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://www.bdtd.uerj.br/handle/1/11760 |
Resumo: | A fala tem se tornado um meio de interação entre o ser humano e os computadores cada vez mais importante. Visando tornar essa interação ainda mais natural, pesquisadores têm proposto diferentes sistemas de reconhecimento de emoções na fala. Na área de reconhecimento de emoções em sinais de fala, as redes neurais profundas vêm sendo foco de intensa investigação. Visto isso, neste trabalho foi avaliado o efeito da técnica de transferência de aprendizado e do aumento da base de dados na acurácia de uma rede neural convolucional residual para a predição de emoções, comparando-a com outras técnicas de classificação tais como: a ResNet sem pré-treino, o Modelo de Mistura de Gaussianas e a Rede Neural Probabilística. Para isto, foram utilizadas as amostras das classes Felicidade, Neutra, Raiva e Tristeza contidas nas bases de dados IEMOCAP e EmoDb visando o treino e teste dos sistemas propostos. Nos experimentos com o GMM foi alcançada uma taxa de reconhecimento de 85,77% para a base de dados EmoDb e 66,83% para a IEMOCAP. Já a rede probabilística desenvolvida nesse trabalho conseguiu classificar corretamente 79,64% das amostras de teste da base de dados EmoDb. Nos experimentos com a ResNet, foram gerados os espectrogramas dos sinais de voz para serem utilizados no lugar de imagens. Nesses experimentos foi observado que as técnicas de aumento da base e de transferência de aprendizado contribuem significativamente para um melhor reconhecimento das emoções. Nesse caso, a rede convolucional classificou corretamente 81,26% das amostras. |