Detalhes bibliográficos
Ano de defesa: |
2023 |
Autor(a) principal: |
Santos, Marcelo Mendonça dos
 |
Orientador(a): |
Oliveira, Luciano Rebouças de
 |
Banca de defesa: |
Oliveira, Luciano Rebouças de
,
Luz, Eduardo José da Silva,
Moreira, Gladston Juliano Prates,
Santos, Thiago Oliveira dos,
Calumby, Rodrigo Tripodi |
Tipo de documento: |
Tese
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Universidade Federal da Bahia
|
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Mecatrônica da UFBA (PPGM)
|
Departamento: |
Instituto de Computação - IC
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Área do conhecimento CNPq: |
|
Link de acesso: |
https://repositorio.ufba.br/handle/ri/37993
|
Resumo: |
A segmentação de objetos em vídeo (VOS) é uma tarefa complexa de visão computacional que envolve a identificação e separação de pixels em uma sequência de vídeo com base em regiões, que podem ser o plano de fundo ou primeiro plano, ou mesmo objetos específicos dentro da cena. A tarefa deve ser realizada de forma consistente ao longo da sequência, garantindo que o mesmo objeto ou região receba o mesmo rótulo em todos os quadros. Avanços recentes em técnicas de aprendizado profundo e datasets de alta definição tem levado a avanços significativos na área de VOS. Métodos modernos podem lidar com cenários de vídeo complexos, incluindo múltiplos objetos em movimento em fundos dinâmicos. No entanto, esses métodos são altamente dependentes de datasets anotados manualmente, que podem ser caros e demorados para serem criados. Alternativamente, métodos auto-supervisionados têm sido propostos para eliminar a necessidade de anotações manuais durante o treinamento. Esses métodos utilizam propriedades intrínsecas de vídeos, como a coerência temporal entre quadros, para gerar um sinal de supervisão para o treinamento sem intervenção humana. A desvantagem é que os métodos auto-supervisionados muitas vezes exigem extensos datasets de treinamento para aprender efetivamente a tarefa de VOS sem supervisão. Neste trabalho, propomos Superfeatures in a Highly Compressed Latent Space (SHLS), um novo método de VOS auto-supervisionado que dispensa anotações manuais e reduz substancialmente a demanda por dados de treinamento. Usando uma abordagem de aprendizado de métrica, o SHLS combina superpixels e recursos de aprendizado profundo, permitindo-nos aprender a tarefa de VOS a partir de um pequeno datasets de imagens estáticas não rotuladas. Nossa solução é construída sobre Iterative over-Segmentation via Edge Clustering (ISEC), nosso eficiente método de superpixels que fornece o mesmo nível de precisão de segmentação que os principais algoritmos de superpixels, enquanto gera significativamente menos superpixels. Isso é especialmente útil para o processamento de vídeos, onde o número de pixels aumenta ao longo do tempo. Nosso método SHLS incorpora features convolucionais dos pixels nas áreas dos superpixels correspondentes, resultando em representações de imagem ultra-compactas chamadas de superfeatures. As superfeatures compõem um espaço latente onde as informações do objeto são armazenadas, recuperadas e classificadas de forma eficiente ao longo da sequência de quadros. Realizamos uma série de experimentos nos datasets de VOS mais populares e observamos resultados competitivos. Comparado aos métodos auto-supervisionados do estado-da-arte, o SHLS alcança a melhor performance no teste de segmentação de objeto único do dataset DAVIS-2016 e ocupa uma das cinco melhores posições no teste de multi-objetos do DAVIS-2017. Notavelmente, nosso método foi treinado com apenas 10.000 imagens estáticas, destacando-se dos outros métodos auto-supervisionados, que exigem datasets de vídeo muito maiores. De modo geral, nosso método proposto representa um avanço significativo na segmentação de objetos em vídeo auto-supervisionada, oferecendo uma alternativa eficiente e eficaz às anotações manuais e reduzindo significativamente a demanda por dados de treinamento. |