Integração de Datasets de Vídeo para Tradução Automática da LIBRAS com Aprendizado Profundo

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Sarmento, Amanda Hellen de Avellar
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-10012024-093541/
Resumo: A comunicação por meio de sinais é uma forma importante de linguagem natural. A língua de sinais é uma maneira rica e diversificada de expressão humana, geralmente menos estudada, mas extremamente relevante para a comunidade surda. A principal questão abordada neste trabalho é como traduzir a Língua Brasileira de Sinais (LIBRAS) implementando métodos de Aprendizado Profundo (DL) com disponibilidade limitada de dados. Estudos anteriores tipicamente usam uma única base de dados, na maioria dos casos coletada pelos próprios autores. Neste trabalho é proposta uma abordagem diferenciada, de integração de diferentes fontes de dados, resultando em um Cross-Dataset, como uma alternativa mais adequada para avaliar a performance e capacidade de generalização dos modelos em um cenário mais realista. São explorados dois métodos para extrair as características espaciais. O primeiro se concentra em Redes Neurais Convolucionais (CNN) pré-treinadas, que exploram a capacidade das CNNs em capturar padrões visuais relevantes. O segundo se concentra na Estimação de Landmarks através de dados puramente visuais (RGB), que envolvem informações do esqueleto como pontos de referência da Pose, Mãos e Face. A fim de processar os dados sequenciais e realizar a classificação dos sinais isolados, uma rede Long Short-Term Memory (LSTM) é utilizada. Além disso, as conclusões obtidas não apenas apontam para a configuração de modelo mais eficaz, mas também exploram fatores de pré-processamento de vídeos, como amostragem de frames, redimensionamento ideal para estimação de Landmarks e aplicação de Data Augmentation. Uma das contribuições marcantes deste trabalho reside na coleta e compilação de um Cross-Dataset com dados oriundos de diversas instituições de ensino, cobrindo pelo menos três estados brasileiros. Ao reunir dados de diferentes fontes, este estudo fornece uma visão mais representativa da LIBRAS, contribuindo para uma compreensão mais profunda das complexidades envolvidas e provendo diretrizes gerais para uma melhor generalização de modelos de reconhecimento e tradução da LIBRAS.