Um método para classificação de opinião em vídeo combinando expressões faciais e gestos

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Gaio Junior, Airton
Outros Autores: http://lattes.cnpq.br/1891875271069152
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal do Amazonas
Instituto de Computação
Brasil
UFAM
Programa de Pós-graduação em Informática
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://tede.ufam.edu.br/handle/tede/5668
Resumo: Um grande número de pessoas compartilha suas opiniões através de vídeos, gerando uma gama de dados incalculável. Esse fenômeno tem despertado elevado interesse de empresas em obter, a partir de vídeos a percepção do grau de sentimento envolvido na opinião das pessoas. E também tem sido uma nova tendência no campo de análise de sentimentos, com importantes desafios envolvidos. A maioria das pesquisas que abordam essa problemática utiliza em suas soluções a combinação de dados de três fontes diferentes: vídeo, áudio e texto. Portanto, são soluções baseadas em modelos complexos e dependentes do idioma, ainda assim, apresentam baixo desempenho. Nesse contexto, este trabalho busca responder a seguinte pergunta: é possível desenvolver um método de classificação de opinião que utilize somente vídeo como fonte de dados, e que obtenha resultados superiores ou equivalente aos resultados obtidos por métodos correntes que usam mais de uma fonte de dados? Como resposta a essa pergunta, é apresentado neste trabalho um método de classificação de opinião multimodal que combina informações de expressão facial e de gesto do corpo extraídas de vídeos on-line. O método proposto utiliza codificação de características para melhorar a representação dos dados e facilitar a tarefa de classificação, a fim de predizer a opinião exposta pelo usuário com elevada precisão e de forma independente do idioma utilizado nos vídeos. Com objetivo de testar o método proposto foram realizados experimentos com três bases de dados públicas e com três baselines. Os resultados dos experimentos mostram que o método proposto é em média 16% superior aos baselines em termos de acurácia e ou precisão, apesar de utilizar apenas dados de vídeo, enquanto os baselines utilizam vídeo, áudio e texto. Como forma de demonstrar portabilidade e independência de idiomas do método proposto, este foi treinado com instâncias de uma base de dados que tem opiniões expressas exclusivamente em inglês, e testado em uma base de dados cujas opiniões são expressas exclusivamente no idioma espanhol. O percentual de 82% de acurácia alcançado nesse teste indica que o método proposto pode ser considerado independente do idioma falado nos vídeos.