Content-based video retrieval from natural language
Ano de defesa: | 2022 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Curitiba |
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/29964 |
Resumo: | Cada vez mais os vídeos estão se tornando os meios mais comuns de comunicação, alavancadas pela popularização de aparelhos acessíveis de gravação de vídeos e pelas redes sociais como TikTok, Instragram e demais. As formas mais comuns de pesquisa de vídeos nestas redes sociais bem como nos portais de buscas, se baseiam em metadados vinculados aos vídeos por meio de palavras-chaves e classificações prévias. No entanto, buscas por palavras-chaves dependem de um conhecimento exato do que se deseja, e não necessariamente podem ser eficientes ao tentar encontrar um determinado vídeo a partir de uma descrição, superficial ou não, de uma determinada cena, podendo incorrer em resultados frustrantes da busca. O objetivo deste trabalho é encontrar um determinado vídeo dentro de uma lista de vídeos disponíveis a partir de uma descrição textual em linguagem natural baseado apenas no conteúdo de suas cenas, sem depender de metadados previamente catalogados. A partir de um dataset contendo vídeos com um número definido de descrições de suas cenas, foi modelada uma rede siamesa com função de perda tripla para identificar, em um hiperespaço, as similaridades entre duas modalidades diferentes, sendo uma delas as informações extraídas de um vídeo, e a outra as informações extraídas de um texto em linguagem natural. A arquitetura final do modelo, bem como os valores de seus parâmetros, foi definida baseada em testes que seguiram os melhores resultados obtidos. Devido ao fato de que os vídeos não são classificados em grupos ou classes e considerando que a função de perda tripla se baseia em um texto âncora e dois exemplos de vídeos, um positivo e um negativo, foi identificada uma dificuldade na seleção de exemplos falsos necessários para o treinamento da arquitetura. Desta forma, também foram testados métodos de escolha de exemplos de vídeos negativos para treinamento utilizando uma escolha aleatória e uma escolha direcionada, baseada nas distâncias das descrições disponíveis dos vídeos em fase de treinamento, sendo a primeira a mais eficiente. Ao final dos testes, foi alcançado um resultado com presença exata do vídeo buscado em 10,67% dos casos no top-1 e em 49,80% dos casos no top-10. Mais do que os resultados numéricos, foi feita uma análise qualitativa dos resultados. Desta análise, foi identificado que o modelo não se comporta de forma satisfatória para buscas em palavras atômicas, com melhores resultados em descrições mais complexas. Os bons resultados também estão principalmente relacionados ao uso de verbos e substantivos, e menos aos adjetivos e advérbios. Ainda, observou-se que os vídeos retornados possuem, de alguma forma, similaridades de cenas ou de tópicos com o texto procurado, indicando que a rede identificou o significado do texto procurado. De maneira geral, os resultados obtidos são promissores e encorajam a continuidade da pesquisa. Trabalhos futuros incluirão o uso de novos modelos de extração de informação de vídeos e de textos, bem como maior aprofundamento na escolha de exemplos negativos de vídeos para reforçar o treinamento. |