[en] A CLUSTER-BASED METHOD FOR ACTION SEGMENTATION USING SPATIO-TEMPORAL AND POSITIONAL ENCODED EMBEDDINGS

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: GUILHERME DE AZEVEDO P MARQUES
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62315&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=62315&idi=2
http://doi.org/10.17771/PUCRio.acad.62315
Resumo: [pt] Vídeos se tornaram a principal mídia para a comunicação, com um volume massivo de dados criado a cada segundo. Conseguir entender essa quantidade de dados de forma automática se tornou importante e, por conseguinte, métodos de video understanding são cada vez mais necessários. Uma tarefa crucial para o entendimento de vídeos é a classificação e localização no tempo de diferentes ações. Para isso, a segmentação de ações precisa ser realizada. Segmentação de ações é a tarefa que consiste em segmentar temporalmente um vídeo, classificando cada quadro com alguma ação. Neste trabalho, é proposto um método de segmentação de ações que não requer análise prévia do vídeo e nenhum dado anotado. O método envolve a extração de embeddings espaço-temporais dos vídeos com redes de aprendizado profundo pré-treinadas, seguida por uma transformação realizada por um codificador posicional e pela aplicação de um algoritmo de grupamento em que cada cluster gerado corresponde a uma ação diferente. Os experimentos realizados demonstram que o método produz resultados competitivos nos conjuntos de dados Breakfast e Inria Instructional Videos.