Ampliando modelos de Image Captioning em português através das informações linguísticas.

Gondim, João Medrado

Ampliando modelos de Image Captioning em português através das informações linguísticas.

Detalhes bibliográficos
Ano de defesa:	2023
Autor(a) principal:	Gondim, João Medrado
Orientador(a):	Claro, Daniela Barreiro
Banca de defesa:	Claro, Daniela Barreiro , Rios, Tatiane Nogueira , Avila, Sandra Eliza Fontes de
Tipo de documento:	Dissertação
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal da Bahia
Programa de Pós-Graduação:	Programa de Pós-Graduação em Ciência da Computação (PGCOMP)
Departamento:	Instituto de Computação - IC
País:	Brasil
Palavras-chave em Português:	Descrição de imagens Redes neurais Visão computacional Processamento de linguagem natural
Área do conhecimento CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Link de acesso:	https://repositorio.ufba.br/handle/ri/38707
Resumo:	O aumento no número de aplicações que demandam acessibilidade, recuperação de informação e interação humano-computador vem culminando com uma crescente necessidade de geração automatizada da descrição de uma imagem. Essa descrição automatizada requer uma identificação do cenário, dos personagens e dos objetos presentes e de como esses elementos se relacionam entre si. A partir destes elementos torna-se possível gerar uma sentença em linguagem natural descrevendo o conteúdo da imagem.O desenvolvimento de métodos capazes de gerar de uma maneira automática uma sentença que descreve uma imagem permeia uma área de pesquisa denominada Image Captioning. A maioria das pesquisas e datasets da área de Image Captioning se concentram na língua inglesa, desenvolvendo modelos e construindo recursos eficientes no estado da arte. Línguas com poucos recursos para desenvolvimento, tais como o Português, demandam maior pesquisa para alcançarem uma sentença descritiva e compreensível. Porém, somente a aglomeração de vários objetos contidos na imagem não gera uma sentença descritiva de uma cena. Diante deste contexto, este trabalho propõe a análise e incorporação de recursos linguísticos que possam guiar o modelo de linguagem na geração de uma descrição que seja mais informativa da imagem em Português. Experimentos foram realizados com a tradução de datasets para a geração da descrição em Português. Os resultados obtidos dão indícios de que existe aprendizado morfológico no treinamento de um modelo de Image Captioning e que a incorporação de classes gramaticais durante o treinamento pode contribuir para a geração de sentenças com maior comprimento e mais informativas.

Ampliando modelos de Image Captioning em português através das informações linguísticas.

Registros relacionados