Detalhes bibliográficos
Ano de defesa: |
2024 |
Autor(a) principal: |
Custódio, Marcelo Barros
 |
Orientador(a): |
Torrent, Tiago Timponi
 |
Banca de defesa: |
Matos, Ely Edison da Silva
,
Fonseca, Aline Alves
,
Pagano, Adriana Silvina
,
Caseli, Helena de Medeiros
 |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Juiz de Fora (UFJF)
|
Programa de Pós-Graduação: |
Programa de Pós-graduação em Letras: Linguística
|
Departamento: |
Faculdade de Letras
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://repositorio.ufjf.br/jspui/handle/ufjf/16854
|
Resumo: |
A combinação de diferentes modalidades de comunicação é uma das características definidoras da expressão humana, no entanto, muitas pesquisas voltam seus esforços para a análise da semântica textual e imagética de forma isolada. Nas últimas décadas, sistemas que processam dados de imagem e texto de forma correlacionada vêm sendo aplicados em tarefas computacionais como recuperação de dados, tradução automática e criação de legendas. Neste trabalho, partimos da premissa de que o desenvolvimento de tais aplicações computacionais pode se beneficiar de um melhor entendimento dos significados que se estabelecem a partir de combinação de informações textuais e visuais. Em particular, esta tese contribui com um dataset inovador que agrega a uma família de datesets padrão ouro para o PLN multimodal e multilíngue – Flickr30k, Multi30k e Flickr30k Entities – informações semânticas estruturadas em termos de frames, conforme modelados na FrameNet Brasil. O dataset resultante, denominado Framed Multi30k (FM30K), contribui os seguintes dados inovadores: (i) 150.000 descrições conceituais originalmente redigidas em português brasileiro para cada uma das 30.000 imagens no dataset Flickr30k; (ii) 30.000 traduções para o português brasileiro de uma das descrições originalmente escritas em inglês para cada uma das imagens no Flickr30k; (iii) anotações automáticas para frames de todas as descrições conceituais constantes do dataset para o português brasileiro e para o inglês, totalizando 330.000 descrições anotadas semanticamente; (iv) anotações manuais para cada uma das bounding boxes provenientes do dataset Flickr30k Entities em três condições de anotação distintas: anotação de entidades com presença de descrição, anotação de entidades sem presença de descrição e anotação de eventos com presença de descrição. O dataset resultante foi analisado para aspectos formais das descrições criadas em português brasileiro e para a similaridade de cosseno entre as representações semânticas derivadas das anotações automáticas e manuais realizadas para as descrições e imagens, respectivamente. Foram realizadas adicionalmente análises qualitativas acerca das distintas perspectivas codificadas nas representações semânticas geradas para as imagens em cada uma das condições de anotação. As análises corroboram a hipótese de que diferentes condições de anotação no que concerne à interação entre modalidades levam a distintas representações semânticas para as imagens, o que reforça o argumento em favor da adoção de uma abordagem perspectivista para a curadoria humana de datasets |