Abordagens computacionais baseadas em modelos de aprendizado profundo e voltadas ao deficiente visual para geração e avaliação automática de descrições textuais de cenas de webinários

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Fernandes, Daniel Louzada
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Viçosa
Ciência da Computação
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://locus.ufv.br/handle/123456789/33020
https://doi.org/10.47328/ufvbbt.2024.588
Resumo: Estudos recentes preveem que pelo menos 2, 2 bilhões de pessoas no mundo sofrem de cegueira ou alguma deficiência visual (como a baixa visão) e que esse número continuará a crescer. Essas pessoas precisarão de algum tipo de cuidado apropriado e o uso de Tecnologias Assistivas é uma forma valiosa para que elas possam mitigar seus obstáculos diários. Nesse contexto, com o rápido avanço da Inteligência Artificial e dos sistemas portáteis embarcados, tem-se testemunhado um aumento no desenvolvimento e oferecimento de vários serviços e tecnologias que proporcionam comodidade e suporte para esse público. Apesar desses avanços, muitas dessas tecnologias têm fatores restritivos, como funcionalidades limitadas ou preços elevados. Além disso, estão disponíveis apenas para uma pequena parcela da população necessitada. Com a pandemia de COVID-19, a vida cotidiana e o local de trabalho tornaram-se mais dependentes das tecnologias, como o consumo intensivo de conteúdos online e o aumento significativo no uso de ferramentas de videoconferência. Embora um mundo altamente conectado permita o trabalho remoto como substituto para o deslocamento e o trabalho de escritório – assim como webinários/videoconferências como sucessores de conferências presenciais, entrevistas, reuniões ou até mesmo aulas – isso também levanta novas barreiras de acessibilidade para as pessoas com deficiência visual. Como a informação visual é complementar à própria mensagem, a baixa ou nenhuma visão impede que essas pessoas capturem informações visuais, o que pode dificultar a compreensão do contexto geral do conteúdo compartilhado em uma apresentação remota. Com isso, aumentou-se a necessidade de prover mais acesso a informações contidas em webinários, em especial, sobre contexto. Para suprir essa necessidade, iniciativas vêm sendo realizadas no sentido de incentivar os usuários da Internet a produzirem descrições textuais de imagens on-line. No entanto, esse é um processo manual e lento que depende da disposição das pessoas com visão em ajudar. Como consequência, muitas imagens carecem de descrições ou apresentam explicações de baixa qualidade. A maioria dos métodos existentes na literatura sobre descrição automática de imagens baseados em Inteligência Artificial, quando utilizados como Tecnologias Assistivas, negligencia as necessidades de indivíduos cegos ou com baixa visão. Esses métodos tendem a comprimir todos os elementos visuais em legendas breves, criar frases desconexas para cada região da imagem ou fornecer descrições extensas, não se concentrando no fornecimento das informações pertinentes para esse grupo específico. Isso ocorre também devido à escassez de conjuntos de dados específicos para atender necessidades de deficientes visuais; logo, esses métodos são treinados em conjuntos para domínios de dados gerais, considerando o uso por pessoas com visão. Para lidar com essas limitações, nesta tese, propõe-se um conjunto de metodologias por meio da integração de técnicas de Visão Computacional e Processamento de Linguagem Natural que possibilitam a implementação e avaliação de uma abordagem para construir descrições de imagens baseada em normas e diretrizes de acessibilidade direcionadas a pessoas com deficiência visual, focando em cenas de webinários. Como parte do processo, o trabalho também desenvolve um conjunto de dados direcionado para este público e propõe uma métrica de avaliação de adequabilidade de descrição textual, levando em conta os aspectos importantes para pessoas cegas ou de baixa visão. Os experimentos demonstraram estatisticamente que a abordagem proposta produziu descrições alinhadas com o conteúdo das imagens, com características linguísticas escritas por humanos e com as diretrizes de acessibilidade para deficientes visuais, apresentando melhor desempenho nesses aspectos quando comparada a métodos anteriores de descrição de imagens. Palavras-chave: Inteligência artificial. Visão computacional. Processamento de linguagem natural. Descrição de imagens. Tecnologias assistivas. Deficiente visual.