Ampliando modelos de Image Captioning em português através das informações linguísticas.

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Gondim, João Medrado lattes
Orientador(a): Claro, Daniela Barreiro lattes
Banca de defesa: Claro, Daniela Barreiro lattes, Rios, Tatiane Nogueira lattes, Avila, Sandra Eliza Fontes de lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal da Bahia
Programa de Pós-Graduação: Programa de Pós-Graduação em Ciência da Computação (PGCOMP) 
Departamento: Instituto de Computação - IC
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufba.br/handle/ri/38707
Resumo: O aumento no número de aplicações que demandam acessibilidade, recuperação de informação e interação humano-computador vem culminando com uma crescente necessidade de geração automatizada da descrição de uma imagem. Essa descrição automatizada requer uma identificação do cenário, dos personagens e dos objetos presentes e de como esses elementos se relacionam entre si. A partir destes elementos torna-se possível gerar uma sentença em linguagem natural descrevendo o conteúdo da imagem.O desenvolvimento de métodos capazes de gerar de uma maneira automática uma sentença que descreve uma imagem permeia uma área de pesquisa denominada Image Captioning. A maioria das pesquisas e datasets da área de Image Captioning se concentram na língua inglesa, desenvolvendo modelos e construindo recursos eficientes no estado da arte. Línguas com poucos recursos para desenvolvimento, tais como o Português, demandam maior pesquisa para alcançarem uma sentença descritiva e compreensível. Porém, somente a aglomeração de vários objetos contidos na imagem não gera uma sentença descritiva de uma cena. Diante deste contexto, este trabalho propõe a análise e incorporação de recursos linguísticos que possam guiar o modelo de linguagem na geração de uma descrição que seja mais informativa da imagem em Português. Experimentos foram realizados com a tradução de datasets para a geração da descrição em Português. Os resultados obtidos dão indícios de que existe aprendizado morfológico no treinamento de um modelo de Image Captioning e que a incorporação de classes gramaticais durante o treinamento pode contribuir para a geração de sentenças com maior comprimento e mais informativas.