[en] A FEW-SHOT LEARNING APPROACH FOR VIDEO ANNOTATION

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: DEBORA STUCK DELGADO DE SOUZA
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67206&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=67206&idi=2
http://doi.org/10.17771/PUCRio.acad.67206
Resumo: [pt] Cada vez mais, os vídeos se tornam uma parte integrante de nossa vida cotidiana. Plataformas como YouTube, Facebook e Instagram recebem uma enorme quantidade de horas de vídeo todos os dias. Quando focamos na categoria de vídeos esportivos, é evidente o crescente interesse em obter dados estatísticos, especialmente no futebol. Isso é valioso tanto para melhorar a performance de atletas e equipes quanto para plataformas que utilizam essas informações, como as de apostas. Consequentemente, o interesse em resolver problemas relacionados à Visão Computacional tem aumentado. No caso do Aprendizado Supervisionado, a qualidade das anotações dos dados é mais um ponto importante para o sucesso das pesquisas. Existem várias ferramentas de anotação disponíveis no mercado, porém poucas com o foco nos quadros relevantes e com suporte a modelos de Inteligência Artificial. Neste sentido, este trabalho envolve a utilização da técnica de Transfer Learning com a extração de features em uma Rede Neural Convolucional (CNN); a investigação de um modelo de classificação baseado na abordagem Few-Shot Learning em conjunto com o algoritmo K-Nearest Neighbors (KNN); a avaliação dos resultados com abordagens diferentes para o balanceamento de classes; o estudo da geração do gráfico 2D com o t-Distributed Stochastic Neighbor Embedding (t-SNE) para análise das anotações e a criação de uma ferramenta para anotação de frames importantes em vídeos, com o intuito de auxiliar as pesquisas e testes.