Framed Multi30K: Um dataset multimodal-multilíngue baseado em semântica de frames

Custódio, Marcelo Barros

Framed Multi30K: Um dataset multimodal-multilíngue baseado em semântica de frames

Detalhes bibliográficos
Ano de defesa:	2024
Autor(a) principal:	Custódio, Marcelo Barros
Orientador(a):	Torrent, Tiago Timponi
Banca de defesa:	Matos, Ely Edison da Silva , Fonseca, Aline Alves , Pagano, Adriana Silvina , Caseli, Helena de Medeiros
Tipo de documento:	Tese
Tipo de acesso:	Acesso aberto
Idioma:	por
Instituição de defesa:	Universidade Federal de Juiz de Fora (UFJF)
Programa de Pós-Graduação:	Programa de Pós-graduação em Letras: Linguística
Departamento:	Faculdade de Letras
País:	Brasil
Palavras-chave em Português:	Semântica de frames Dataset multimodal Representação semântica multimodal Frame semantics Multimodal dataset Multimodal semantic representation
Área do conhecimento CNPq:	CNPQ::LINGUISTICA, LETRAS E ARTES
Link de acesso:	https://repositorio.ufjf.br/jspui/handle/ufjf/16854
Resumo:	A combinação de diferentes modalidades de comunicação é uma das características definidoras da expressão humana, no entanto, muitas pesquisas voltam seus esforços para a análise da semântica textual e imagética de forma isolada. Nas últimas décadas, sistemas que processam dados de imagem e texto de forma correlacionada vêm sendo aplicados em tarefas computacionais como recuperação de dados, tradução automática e criação de legendas. Neste trabalho, partimos da premissa de que o desenvolvimento de tais aplicações computacionais pode se beneficiar de um melhor entendimento dos significados que se estabelecem a partir de combinação de informações textuais e visuais. Em particular, esta tese contribui com um dataset inovador que agrega a uma família de datesets padrão ouro para o PLN multimodal e multilíngue – Flickr30k, Multi30k e Flickr30k Entities – informações semânticas estruturadas em termos de frames, conforme modelados na FrameNet Brasil. O dataset resultante, denominado Framed Multi30k (FM30K), contribui os seguintes dados inovadores: (i) 150.000 descrições conceituais originalmente redigidas em português brasileiro para cada uma das 30.000 imagens no dataset Flickr30k; (ii) 30.000 traduções para o português brasileiro de uma das descrições originalmente escritas em inglês para cada uma das imagens no Flickr30k; (iii) anotações automáticas para frames de todas as descrições conceituais constantes do dataset para o português brasileiro e para o inglês, totalizando 330.000 descrições anotadas semanticamente; (iv) anotações manuais para cada uma das bounding boxes provenientes do dataset Flickr30k Entities em três condições de anotação distintas: anotação de entidades com presença de descrição, anotação de entidades sem presença de descrição e anotação de eventos com presença de descrição. O dataset resultante foi analisado para aspectos formais das descrições criadas em português brasileiro e para a similaridade de cosseno entre as representações semânticas derivadas das anotações automáticas e manuais realizadas para as descrições e imagens, respectivamente. Foram realizadas adicionalmente análises qualitativas acerca das distintas perspectivas codificadas nas representações semânticas geradas para as imagens em cada uma das condições de anotação. As análises corroboram a hipótese de que diferentes condições de anotação no que concerne à interação entre modalidades levam a distintas representações semânticas para as imagens, o que reforça o argumento em favor da adoção de uma abordagem perspectivista para a curadoria humana de datasets

Framed Multi30K: Um dataset multimodal-multilíngue baseado em semântica de frames

Registros relacionados