Detecção facial em diferentes cenários usando múltiplos modelos

Bibliographic Details
Main Author: Dias, Bruno Gonçalves
Publication Date: 2024
Format: Master thesis
Language: por
Source: Biblioteca Digital de Teses e Dissertações da USP
Download full: https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/
Summary: Detecção facial é uma subárea de visão computacional, que consiste em encontrar faces humanas numa imagem. Em 2001, foi proposto uma técnica, popularizada na literatura sob o nome de Viola & Jones, que alcançou desempenho expressivo na detecção de faces frontais, sem variação drástica de iluminação, expressão facial e sem presença de oclusão parcial. Após a publicação desta técnica, os esforços de pesquisa se dirigiram para detecção de faces em ambiente não controlados, isto é, ambientes com presença de oclusão, variação de iluminação, pose e escala, entre outras caraterísticas. Progresso relevante foi observado nas últimas décadas, com destaque para uso de aprendizado profundo na área a partir da segunda década do século XXI. Embora a acurácia nos principais benchmarkings da área esteja acima de 90%, a detecção de faces em ambientes não controlados ainda é um problema em aberto. Na literatura da área é possível identificar desafios a serem superados em cenários específicos que envolve variação de cor de pele, expressão, maquiagem, pose e com presença de oclusões parciais da face. Com base nisso, esta dissertação apresenta uma abordagem baseada no emprego de múltiplos detectores, um detector para cada cenário específico e um chaveador responsável pela seleção do detector mais adequado. Para demonstrar a viabilidade da abordagem proposta, foram realizados três experimentos. No primeiro experimento, quatro detectores pré-treinados com diferentes arquiteturas foram avaliados na base de dados MALF, que possui informações detalhadas das faces nas imagens. Utilizando estas informações, foram descritos sete cenários, o desempenho dos detectores foi avaliado em relação a estes cenários. Os resultados demonstraram uma degradação de desempenho expressiva em dois cenários: \"movimento grande de guinada\" e \"movimento grande de picada\". No segundo experimento, com base na informação dos cenários, foi realizado um ajuste fino nas arquiteturas utilizadas no experimento anterior. As arquiteturas foram ajustadas apenas para dois dos piores cenários. O objetivo deste experimento foi verificar se a arquitetura treinada para um cenário específico poderia conduzir a uma melhora maior na detecção de faces deste cenário quando comparada com a arquitetura treinada sobre todos os cenários. Analisando os resultados, esta hipótese não foi comprovada. No terceiro experimento, as arquiteturas foram ajustadas para um dos quatro cenários: \"movimento grande de guinada\", \"movimento grande de rolamento\", \"oclusão\" e \"presença de óculos\". Um chaveador foi treinado para predizer o cenário dada uma imagem de face. Em seguida, esta abordagem foi avaliada para o conjunto de teste envolvendo diversos cenários desconhecidos a priori. O desempenho foi comparado com as arquiteturas treinadas sobre toda a base envolvendo diversos cenários. Os resultados demonstraram que a abordagem é promissora, mas existe a necessidade de melhorias para torná-la competitiva
id USP_e4d481c8d0ba5fe6ec441dfb64e28e26
oai_identifier_str oai:teses.usp.br:tde-18062024-073139
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Detecção facial em diferentes cenários usando múltiplos modelosFacial detection in different scenarios using multiple modelsAmbientes não controladosCenáriosConvolutional Neural NetworksDetecção de facesFace DetectionRedes Neurais ConvolucionaisScenariosUncontrolled EnvironmentsDetecção facial é uma subárea de visão computacional, que consiste em encontrar faces humanas numa imagem. Em 2001, foi proposto uma técnica, popularizada na literatura sob o nome de Viola & Jones, que alcançou desempenho expressivo na detecção de faces frontais, sem variação drástica de iluminação, expressão facial e sem presença de oclusão parcial. Após a publicação desta técnica, os esforços de pesquisa se dirigiram para detecção de faces em ambiente não controlados, isto é, ambientes com presença de oclusão, variação de iluminação, pose e escala, entre outras caraterísticas. Progresso relevante foi observado nas últimas décadas, com destaque para uso de aprendizado profundo na área a partir da segunda década do século XXI. Embora a acurácia nos principais benchmarkings da área esteja acima de 90%, a detecção de faces em ambientes não controlados ainda é um problema em aberto. Na literatura da área é possível identificar desafios a serem superados em cenários específicos que envolve variação de cor de pele, expressão, maquiagem, pose e com presença de oclusões parciais da face. Com base nisso, esta dissertação apresenta uma abordagem baseada no emprego de múltiplos detectores, um detector para cada cenário específico e um chaveador responsável pela seleção do detector mais adequado. Para demonstrar a viabilidade da abordagem proposta, foram realizados três experimentos. No primeiro experimento, quatro detectores pré-treinados com diferentes arquiteturas foram avaliados na base de dados MALF, que possui informações detalhadas das faces nas imagens. Utilizando estas informações, foram descritos sete cenários, o desempenho dos detectores foi avaliado em relação a estes cenários. Os resultados demonstraram uma degradação de desempenho expressiva em dois cenários: \"movimento grande de guinada\" e \"movimento grande de picada\". No segundo experimento, com base na informação dos cenários, foi realizado um ajuste fino nas arquiteturas utilizadas no experimento anterior. As arquiteturas foram ajustadas apenas para dois dos piores cenários. O objetivo deste experimento foi verificar se a arquitetura treinada para um cenário específico poderia conduzir a uma melhora maior na detecção de faces deste cenário quando comparada com a arquitetura treinada sobre todos os cenários. Analisando os resultados, esta hipótese não foi comprovada. No terceiro experimento, as arquiteturas foram ajustadas para um dos quatro cenários: \"movimento grande de guinada\", \"movimento grande de rolamento\", \"oclusão\" e \"presença de óculos\". Um chaveador foi treinado para predizer o cenário dada uma imagem de face. Em seguida, esta abordagem foi avaliada para o conjunto de teste envolvendo diversos cenários desconhecidos a priori. O desempenho foi comparado com as arquiteturas treinadas sobre toda a base envolvendo diversos cenários. Os resultados demonstraram que a abordagem é promissora, mas existe a necessidade de melhorias para torná-la competitivaFacial detection is a subfield of computer vision, which involves finding human faces in an image. In 2001, a technique popularized in the literature under the name Viola & Jones was proposed, which achieved significant performance in detecting frontal faces, without drastic variations in lighting, facial expression, and without partial occlusion. After the publication of this technique, research efforts shifted towards detecting faces in uncontrolled environments, i.e., environments with occlusion, lighting variation, pose, and scale, among other characteristics. Relevant progress has been observed in recent decades, with a highlight on the use of deep learning in the field since the second decade of the 21st century. Although the accuracy in the main benchmarks of the area is above 90%, face detection in uncontrolled environments is still an open problem. In the literature of the field, it is possible to identify challenges to be overcome in specific scenarios involving skin color variation, expression, makeup, pose, and with the presence of partial face occlusions. Based on this, this dissertation presents an approach based on the use of multiple detectors, one detector for each specific scenario, and a switcher responsible for selecting the detector. To demonstrate the feasibility of the proposed approach, three experiments were carried out. In the first experiment, four detectors with different pre-trained architectures were evaluated on the MALF database, which contains detailed information about the faces in the images. Using this information, seven scenarios were described, and the detectors\' performance was evaluated in relation to these scenarios. The results showed a significant performance degradation in two scenarios: \"large yaw movement\" and \"large pitch movement\". In the second experiment, based on the information from the scenarios, fine-tuning was performed on the architectures used in the previous experiment. The architectures were adjusted only for two of the worst scenarios. This experiment aimed to verify if the architecture trained for a specific scenario could lead to a greater improvement in face detection in this scenario when compared to the architecture trained in all scenarios. Analyzing the results, this hypothesis was not confirmed. In the third experiment, the architectures were adjusted for one of the four scenarios: \"large yaw movement\", \"large roll movement\", \"occlusion\", and \"presence of glasses\". A switcher was trained to predict the scenario given a face image. Then, this approach was evaluated for the test set involving various scenarios unknown a priori. The performance was compared with the architectures trained on the entire dataset involving various scenarios. The results demonstrated that the approach is promising, but that it needs improvements to make it competitiveBiblioteca Digitais de Teses e Dissertações da USPLima, Clodoaldo Aparecido de MoraesDias, Bruno Gonçalves2024-04-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-02-20T14:16:02Zoai:teses.usp.br:tde-18062024-073139Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-02-20T14:16:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Detecção facial em diferentes cenários usando múltiplos modelos
Facial detection in different scenarios using multiple models
title Detecção facial em diferentes cenários usando múltiplos modelos
spellingShingle Detecção facial em diferentes cenários usando múltiplos modelos
Dias, Bruno Gonçalves
Ambientes não controlados
Cenários
Convolutional Neural Networks
Detecção de faces
Face Detection
Redes Neurais Convolucionais
Scenarios
Uncontrolled Environments
title_short Detecção facial em diferentes cenários usando múltiplos modelos
title_full Detecção facial em diferentes cenários usando múltiplos modelos
title_fullStr Detecção facial em diferentes cenários usando múltiplos modelos
title_full_unstemmed Detecção facial em diferentes cenários usando múltiplos modelos
title_sort Detecção facial em diferentes cenários usando múltiplos modelos
author Dias, Bruno Gonçalves
author_facet Dias, Bruno Gonçalves
author_role author
dc.contributor.none.fl_str_mv Lima, Clodoaldo Aparecido de Moraes
dc.contributor.author.fl_str_mv Dias, Bruno Gonçalves
dc.subject.por.fl_str_mv Ambientes não controlados
Cenários
Convolutional Neural Networks
Detecção de faces
Face Detection
Redes Neurais Convolucionais
Scenarios
Uncontrolled Environments
topic Ambientes não controlados
Cenários
Convolutional Neural Networks
Detecção de faces
Face Detection
Redes Neurais Convolucionais
Scenarios
Uncontrolled Environments
description Detecção facial é uma subárea de visão computacional, que consiste em encontrar faces humanas numa imagem. Em 2001, foi proposto uma técnica, popularizada na literatura sob o nome de Viola & Jones, que alcançou desempenho expressivo na detecção de faces frontais, sem variação drástica de iluminação, expressão facial e sem presença de oclusão parcial. Após a publicação desta técnica, os esforços de pesquisa se dirigiram para detecção de faces em ambiente não controlados, isto é, ambientes com presença de oclusão, variação de iluminação, pose e escala, entre outras caraterísticas. Progresso relevante foi observado nas últimas décadas, com destaque para uso de aprendizado profundo na área a partir da segunda década do século XXI. Embora a acurácia nos principais benchmarkings da área esteja acima de 90%, a detecção de faces em ambientes não controlados ainda é um problema em aberto. Na literatura da área é possível identificar desafios a serem superados em cenários específicos que envolve variação de cor de pele, expressão, maquiagem, pose e com presença de oclusões parciais da face. Com base nisso, esta dissertação apresenta uma abordagem baseada no emprego de múltiplos detectores, um detector para cada cenário específico e um chaveador responsável pela seleção do detector mais adequado. Para demonstrar a viabilidade da abordagem proposta, foram realizados três experimentos. No primeiro experimento, quatro detectores pré-treinados com diferentes arquiteturas foram avaliados na base de dados MALF, que possui informações detalhadas das faces nas imagens. Utilizando estas informações, foram descritos sete cenários, o desempenho dos detectores foi avaliado em relação a estes cenários. Os resultados demonstraram uma degradação de desempenho expressiva em dois cenários: \"movimento grande de guinada\" e \"movimento grande de picada\". No segundo experimento, com base na informação dos cenários, foi realizado um ajuste fino nas arquiteturas utilizadas no experimento anterior. As arquiteturas foram ajustadas apenas para dois dos piores cenários. O objetivo deste experimento foi verificar se a arquitetura treinada para um cenário específico poderia conduzir a uma melhora maior na detecção de faces deste cenário quando comparada com a arquitetura treinada sobre todos os cenários. Analisando os resultados, esta hipótese não foi comprovada. No terceiro experimento, as arquiteturas foram ajustadas para um dos quatro cenários: \"movimento grande de guinada\", \"movimento grande de rolamento\", \"oclusão\" e \"presença de óculos\". Um chaveador foi treinado para predizer o cenário dada uma imagem de face. Em seguida, esta abordagem foi avaliada para o conjunto de teste envolvendo diversos cenários desconhecidos a priori. O desempenho foi comparado com as arquiteturas treinadas sobre toda a base envolvendo diversos cenários. Os resultados demonstraram que a abordagem é promissora, mas existe a necessidade de melhorias para torná-la competitiva
publishDate 2024
dc.date.none.fl_str_mv 2024-04-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/
url https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1839839038811406336