[en] BOUNDING BOXES SELECTION IN OBJECT DETECTION ARCHITECTURES

Detalhes bibliográficos
Ano de defesa: 2021
Autor(a) principal: CLAUDIO VIEIRA ESCUDERO
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: MAXWELL
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=53479&idi=1
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=53479&idi=2
http://doi.org/10.17771/PUCRio.acad.53479
Resumo: [pt] Esta dissertação estuda métodos e algoritmos para critérios de seleções dos retângulos envolventes focando em arquiteturas de detecção de objetos baseada redes neurais convolucionais para tempo real, que processam mais de 30fps, que também possibilitam a expansão para outras arquiteturas. O objetivo desta dissertação é melhorar as métricas Recall e Precision, proporcionando mais assertividade nos resultados destas arquiteturas sem a necessidade de recriá-las ou retreiná-las, diminuindo, assim, os recursos para manutenções. As arquiteturas que trabalham em tempo real normalmente não apresentam melhores resultados, pois são desenvolvidas visando a redução do tempo de execução. Para resolver estes problemas, serão testados outros métodos de critérios de seleção de retângulos envolventes em estado da arte, são eles: Nonmaximum Suppression (NMS), Soft-NMS, Non-Maximum Weighted (NMW) e Weighted Boxes Fusion (WBF). Os resultados obtidos foram comparados aos originais das arquiteturas, utilizando as métricas mAP, Recall e Precision. Através desta comparação foi possível comprovar que os novos critérios apresentaram bons resultados. O tempo de execução dos novos critérios também foi analisado com execuções de imagens em lotes, contornando alguns overheads dos critérios mais pesados. As arquiteturas utilizadas como base nos experimentos foram baseadas nos sistemas YOLOv3-Tiny e YOLOv4-Tiny, utilizando o dataset QMUL-OpenLogo público e especializado em logotipos e baseado em fotos reais.