Reconhecimento de palavras em língua de sinais baseado em aprendizado profundo e descritores handcrafted de baixo custo

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Carneiro, Álvaro Leandro Cavalcante
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual Paulista (Unesp)
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://hdl.handle.net/11449/243148
Resumo: Diversas técnicas de aprendizado profundo e visão computacional têm sido utilizadas nos últimos anos para a criação de sistemas de reconhecimento e tradução de língua de sinais para a língua nativa a partir de vídeos, servindo como uma ferramenta de comunicação para os milhões de deficientes auditivos ao redor do mundo. Ainda assim, inúmeros fatores devem ser considerados para a criação de um sistema como esse, aumentando a complexidade da tarefa. Primeiramente, o treinamento de um modelo de classificação exige uma grande quantidade de dados, o que representa uma dificuldade visto que esta área sofre com a carência de bases de dados em larga escala disponíveis publicamente. Além disso, a fim de evitar a ambiguidade entre as palavras, é preciso considerar o maior número de parâmetros linguísticos possíveis na execução dos gestos que formam os sinais. Na prática, acrescenta-se ainda que o conjunto tecnológico adotado seja condizente com a realidade, evitando sensores custosos, intrusivos ou com baixa mobilidade, bem como arquiteturas muito complexas de aprendizado profundo, reduzindo os requisitos computacionais. Isso é importante para possibilitar a adoção em larga escala e em ambiente real da solução criada, promovendo a acessibilidade. Baseado nisso, este trabalho tem como objetivo propor um sistema eficiente de reconhecimento de palavras em língua de sinais, adotando sensores e técnicas de baixo custo. Para isso, diversas arquiteturas de detecção de objetos foram simplificadas e treinadas especificamente para a tarefa de detecção da face e das mãos do intérprete, garantindo o foco nas regiões mais relevantes da imagem e gerando entradas com maior valor semântico para o classificador. Além disso, uma nova abordagem foi proposta para obtenção de atributos utilizados para representação do ponto de contato e do movimento das mãos, aumentando a discriminação entre os sinais. Os resultados obtidos demonstram a eficiência dos detectores, atingindo um mAP de mais de 95% com a velocidade de inferência até 77% menor em relação à versão original do modelo. Ademais, os atributos handcrafted (criados sem a ajuda de modelos) geraram um acréscimo de 7,96% de acurácia em um dos conjuntos de dados testados, adicionando menos de 700 mil parâmetros, demonstrando o potencial da técnica em aumentar a compensação entre custo computacional e acurácia.