Reconhecimento de emoções na fala a partir da extração manual de características com validação baseada na engenharia paraconsistente

Brajato, Hiago Matheus

Reconhecimento de emoções na fala a partir da extração manual de características com validação baseada na engenharia paraconsistente

Detalhes bibliográficos
Ano de defesa:	2022
Autor(a) principal:	Brajato, Hiago Matheus
Orientador(a):	Não Informado pela instituição
Banca de defesa:	Não Informado pela instituição
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação:	Não Informado pela instituição
Departamento:	Não Informado pela instituição
País:	Não Informado pela instituição
Palavras-chave em Português:	Engenharia paraconsistente de características Redes neurais artificiais Handcrafted extraction Speech Emotion Recognition (SER) Paraconsistent feature engineering Artificial neural network
Link de acesso:	http://hdl.handle.net/11449/217104
Resumo:	Speech Emotion Recognition (SER) pode ser definida como a maneira automatizada de identificar o estado emocional de um locutor a partir da sua voz. Dentre as metodologias encontradas na literatura para viabilizar o SER, as quais ainda carecem de melhor compreensão e discussão, o presente trabalho ocupa-se da abordagem handcrafted extraction para a composição dos vetores de características responsáveis por permitir a classificação dos sinais de voz entre sete classes emocionais distintas: raiva, tédio, desgosto, medo, felicidade, neutralidade e tristeza. Os descritores utilizados, os quais foram obtidos por meio da energia clássica, do Operador de Energia de Teager, do zero crossing rate, da planaridade espectral e da entropia espectral, foram submetidos à Engenharia Paraconsistente de Características, que é responsável por selecionar o melhor subgrupo de características a partir da análise de similaridades e dissimilaridades intra e interclasse, respectivamente. Finalmente, um algoritmo genético associado à uma rede neural multilayer perceptron foi responsável por realizar a classificação dos sinais visando a maior taxa de acurácia possível, isto é, 84.9%, considerando a base de dados pública EMO_DB com 535 sinais na modalidade speaker-independent. Em contraste com abordagens do tipo feature learning, a estratégia proposta permitiu uma melhor compreensão física do problema em questão.

Reconhecimento de emoções na fala a partir da extração manual de características com validação baseada na engenharia paraconsistente

Registros relacionados