Towards an automatic training system using Few-shot Object Detection

Bibliographic Details
Main Author: Pereira, Daniel Roque
Publication Date: 2023
Format: Master thesis
Language: eng
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: https://hdl.handle.net/10316/110712
Summary: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_a6d03071c292edadc08ac213b7c54bcc
oai_identifier_str oai:estudogeral.uc.pt:10316/110712
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Towards an automatic training system using Few-shot Object DetectionEm direção a um sistema de treino automático para deteção de objetos usando poucos exemplosVisão por computadorAprendizagem máquinaAnotação automática de imagemRedes NeuronaisDeteção de objetos few-shotComputer VisionMachine LearningAutomatic Image Annotation,Neural NetworksFew-shot Object DetectionDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaAs empresas que fornecem redes globais de supermercados enfrentam desafiosna gestão de inventário e na garantia de entregas pontuais. Estas dificuldadespodem surgir devido a atrasos na reposição de produtos, problemas de gestão ouquestões relacionadas com a entrega atempada de encomendas.Dada a ineficiência de atribuir um trabalhador da empresa para monitorizar osprocessos de cada loja, a B&N propôs uma ferramenta para detetar objetos emprateleiras através de fotografias. No entanto, a ferramenta atual exige um númerosubstancial de imagens para deteção precisa de objetos e acarreta custos significa-tivos em termos de trabalho humano para anotação, o que também pode intro-duzir erros.Com o objetivo de otimizar o processo de integração, reduzir a mão de obra hu-mana e melhorar a escalabilidade, esta dissertação explora o campo em evoluçãoda Detecção de Objetos com Poucos Exemplos (FSOD) e investiga o campo deAnotação Automática(AA). AA utiliza algoritmos de computador para uma eti-quetagem eficiente e precisa de objetos, enquanto o FSOD, em particular o FSODbaseado em meta-aprendizagem, concentra-se na deteção de objetos com umnúmero limitado de exemplos de treino. Ao combinar estas técnicas, temos comoobjetivo criar uma ferramenta escalável, eficiente em termos de tempo e semerros, adequada para automatizar os processos de integração. Este empreendi-mento é relevante para enfrentar os desafios enfrentados pelas empresas quegerem redes de supermercados globais, especialmente na gestão de inventárioe no acompanhamento de envios. A ferramenta proposta envolve a deteção deobjetos através de imagem, acompanhada pela anotação automática e treino domodelo, melhorando a eficiência do sistema existente.Após uma revisão aprofundada do Estado da Arte(SOTA), propusemos uma ar-quitetura para incorporar ambas as técnicas num processo unificado. No entanto,rapidamente descobrimos que o processo não era viável, uma vez que o FSOD eo AA são processos que demonstram uma incompatibilidade significativa, o quecomplica a sua coexistência. Como resultado, concentramo-nos inteiramente nacriação de um sistema FSOD para treino automático.Para este fim, investigamos as capacidades dos modelos YOLOv8 e FRCNN dod2 para desenvolver um modelo que pudesse corresponder às nossas expetativassem desvantagens significativas em termos de desempenho. Nesta dissertação,implementamos a técnica FSOD em dois diferentes modelos SOTA de deteção deobjetos, a fim de ser capaz de detetar objetos em prateleiras com poucas instânciasde treino. Com base nos nossos resultados, concluímos que a abordagem é viávele que a prova de conceito funciona, mas que ainda há espaço significativo parao FSOD evoluir, e deixamos pontos chave a serem explorados para uma maiorprogressão e aprimoramento do mesmo.Companies supplying large global supermarket networks face challenges in man-aging inventory and ensuring timely shipments. These difficulties can arise fromdelays in restocking products, management issues, or problems with the timelydelivery of shipments. Given the inefficiency of assigning a company workerto monitor each store’s processes, Brands&Ninjas (B&N) has proposed a frame-work for detecting objects on shelves through photography. However, the cur-rent framework demands a substantial number of images for accurate object de-tection and incurs significant costs in terms of human labor for annotation, whichcan also introduce errors.In order to streamline the onboarding process, reduce human labor, and improvescalability, this dissertation exploits the evolving field of Few-shot Object Detec-tion (FSOD) and explores the Automatic Annotation (AA) field. AA employscomputer algorithms for efficient and accurate object labeling, while FSOD, par-ticularly meta-learning FSOD, focuses on detecting objects with limited trainingexamples. By combining these techniques, we aim to create a scalable, time-efficient, and error-free tool suitable for automating onboarding processes. Thisendeavor finds relevance in addressing challenges faced by companies managingglobal supermarket networks, particularly in inventory management and ship-ment tracking. The proposed framework involves object detection through pho-tography, accompanied by automated annotation and model training, enhancingthe efficiency of the existing system. After an in-depth review of the State of theArt, we proposed an architecture to incorporate both of these techniques into aunified process. However, we soon discovered that the process was not feasible,as FSOD and AA are processes that demonstrate significant inherent incompati-bility which complicates their coexistence. Consequently, we focused entirely oncreating an FSOD system for automatic training.We evaluated the capabilities of the YOLOv8 and Detectron2 (d2)’s Faster-RCNN(FRCNN) models to develop a model that could meet our expectations withoutsignificant drawbacks in performance. In this dissertation, we implemented theFSOD technique across 2 different object detection State of the Art (SOTA) modelsin order to be able to detect objects on shelves with few training instances. Basedon our results, we concluded that the approach is viable and the proof conceptends up working, but there is still significant room for FSOD to evolve and weleave key points to be explored for further progression and enhancement on it.2023-09-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://hdl.handle.net/10316/110712https://hdl.handle.net/10316/110712TID:203397509engPereira, Daniel Roqueinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2023-11-23T23:09:06Zoai:estudogeral.uc.pt:10316/110712Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T06:02:41.134771Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Towards an automatic training system using Few-shot Object Detection
Em direção a um sistema de treino automático para deteção de objetos usando poucos exemplos
title Towards an automatic training system using Few-shot Object Detection
spellingShingle Towards an automatic training system using Few-shot Object Detection
Pereira, Daniel Roque
Visão por computador
Aprendizagem máquina
Anotação automática de imagem
Redes Neuronais
Deteção de objetos few-shot
Computer Vision
Machine Learning
Automatic Image Annotation,
Neural Networks
Few-shot Object Detection
title_short Towards an automatic training system using Few-shot Object Detection
title_full Towards an automatic training system using Few-shot Object Detection
title_fullStr Towards an automatic training system using Few-shot Object Detection
title_full_unstemmed Towards an automatic training system using Few-shot Object Detection
title_sort Towards an automatic training system using Few-shot Object Detection
author Pereira, Daniel Roque
author_facet Pereira, Daniel Roque
author_role author
dc.contributor.author.fl_str_mv Pereira, Daniel Roque
dc.subject.por.fl_str_mv Visão por computador
Aprendizagem máquina
Anotação automática de imagem
Redes Neuronais
Deteção de objetos few-shot
Computer Vision
Machine Learning
Automatic Image Annotation,
Neural Networks
Few-shot Object Detection
topic Visão por computador
Aprendizagem máquina
Anotação automática de imagem
Redes Neuronais
Deteção de objetos few-shot
Computer Vision
Machine Learning
Automatic Image Annotation,
Neural Networks
Few-shot Object Detection
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2023
dc.date.none.fl_str_mv 2023-09-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/10316/110712
https://hdl.handle.net/10316/110712
TID:203397509
url https://hdl.handle.net/10316/110712
identifier_str_mv TID:203397509
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833602558044667904