Detecção facial em diferentes cenários usando múltiplos modelos

Dias, Bruno Gonçalves

Detecção facial em diferentes cenários usando múltiplos modelos

Bibliographic Details
Main Author:	Dias, Bruno Gonçalves
Publication Date:	2024
Format:	Master thesis
Language:	por
Source:	Biblioteca Digital de Teses e Dissertações da USP
Download full:	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/
Summary:	Detecção facial é uma subárea de visão computacional, que consiste em encontrar faces humanas numa imagem. Em 2001, foi proposto uma técnica, popularizada na literatura sob o nome de Viola & Jones, que alcançou desempenho expressivo na detecção de faces frontais, sem variação drástica de iluminação, expressão facial e sem presença de oclusão parcial. Após a publicação desta técnica, os esforços de pesquisa se dirigiram para detecção de faces em ambiente não controlados, isto é, ambientes com presença de oclusão, variação de iluminação, pose e escala, entre outras caraterísticas. Progresso relevante foi observado nas últimas décadas, com destaque para uso de aprendizado profundo na área a partir da segunda década do século XXI. Embora a acurácia nos principais benchmarkings da área esteja acima de 90%, a detecção de faces em ambientes não controlados ainda é um problema em aberto. Na literatura da área é possível identificar desafios a serem superados em cenários específicos que envolve variação de cor de pele, expressão, maquiagem, pose e com presença de oclusões parciais da face. Com base nisso, esta dissertação apresenta uma abordagem baseada no emprego de múltiplos detectores, um detector para cada cenário específico e um chaveador responsável pela seleção do detector mais adequado. Para demonstrar a viabilidade da abordagem proposta, foram realizados três experimentos. No primeiro experimento, quatro detectores pré-treinados com diferentes arquiteturas foram avaliados na base de dados MALF, que possui informações detalhadas das faces nas imagens. Utilizando estas informações, foram descritos sete cenários, o desempenho dos detectores foi avaliado em relação a estes cenários. Os resultados demonstraram uma degradação de desempenho expressiva em dois cenários: \"movimento grande de guinada\" e \"movimento grande de picada\". No segundo experimento, com base na informação dos cenários, foi realizado um ajuste fino nas arquiteturas utilizadas no experimento anterior. As arquiteturas foram ajustadas apenas para dois dos piores cenários. O objetivo deste experimento foi verificar se a arquitetura treinada para um cenário específico poderia conduzir a uma melhora maior na detecção de faces deste cenário quando comparada com a arquitetura treinada sobre todos os cenários. Analisando os resultados, esta hipótese não foi comprovada. No terceiro experimento, as arquiteturas foram ajustadas para um dos quatro cenários: \"movimento grande de guinada\", \"movimento grande de rolamento\", \"oclusão\" e \"presença de óculos\". Um chaveador foi treinado para predizer o cenário dada uma imagem de face. Em seguida, esta abordagem foi avaliada para o conjunto de teste envolvendo diversos cenários desconhecidos a priori. O desempenho foi comparado com as arquiteturas treinadas sobre toda a base envolvendo diversos cenários. Os resultados demonstraram que a abordagem é promissora, mas existe a necessidade de melhorias para torná-la competitiva

Item metadata

id	USP_e4d481c8d0ba5fe6ec441dfb64e28e26
oai_identifier_str	oai:teses.usp.br:tde-18062024-073139
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str	2721
spelling	Detecção facial em diferentes cenários usando múltiplos modelosFacial detection in different scenarios using multiple modelsAmbientes não controladosCenáriosConvolutional Neural NetworksDetecção de facesFace DetectionRedes Neurais ConvolucionaisScenariosUncontrolled EnvironmentsDetecção facial é uma subárea de visão computacional, que consiste em encontrar faces humanas numa imagem. Em 2001, foi proposto uma técnica, popularizada na literatura sob o nome de Viola & Jones, que alcançou desempenho expressivo na detecção de faces frontais, sem variação drástica de iluminação, expressão facial e sem presença de oclusão parcial. Após a publicação desta técnica, os esforços de pesquisa se dirigiram para detecção de faces em ambiente não controlados, isto é, ambientes com presença de oclusão, variação de iluminação, pose e escala, entre outras caraterísticas. Progresso relevante foi observado nas últimas décadas, com destaque para uso de aprendizado profundo na área a partir da segunda década do século XXI. Embora a acurácia nos principais benchmarkings da área esteja acima de 90%, a detecção de faces em ambientes não controlados ainda é um problema em aberto. Na literatura da área é possível identificar desafios a serem superados em cenários específicos que envolve variação de cor de pele, expressão, maquiagem, pose e com presença de oclusões parciais da face. Com base nisso, esta dissertação apresenta uma abordagem baseada no emprego de múltiplos detectores, um detector para cada cenário específico e um chaveador responsável pela seleção do detector mais adequado. Para demonstrar a viabilidade da abordagem proposta, foram realizados três experimentos. No primeiro experimento, quatro detectores pré-treinados com diferentes arquiteturas foram avaliados na base de dados MALF, que possui informações detalhadas das faces nas imagens. Utilizando estas informações, foram descritos sete cenários, o desempenho dos detectores foi avaliado em relação a estes cenários. Os resultados demonstraram uma degradação de desempenho expressiva em dois cenários: \"movimento grande de guinada\" e \"movimento grande de picada\". No segundo experimento, com base na informação dos cenários, foi realizado um ajuste fino nas arquiteturas utilizadas no experimento anterior. As arquiteturas foram ajustadas apenas para dois dos piores cenários. O objetivo deste experimento foi verificar se a arquitetura treinada para um cenário específico poderia conduzir a uma melhora maior na detecção de faces deste cenário quando comparada com a arquitetura treinada sobre todos os cenários. Analisando os resultados, esta hipótese não foi comprovada. No terceiro experimento, as arquiteturas foram ajustadas para um dos quatro cenários: \"movimento grande de guinada\", \"movimento grande de rolamento\", \"oclusão\" e \"presença de óculos\". Um chaveador foi treinado para predizer o cenário dada uma imagem de face. Em seguida, esta abordagem foi avaliada para o conjunto de teste envolvendo diversos cenários desconhecidos a priori. O desempenho foi comparado com as arquiteturas treinadas sobre toda a base envolvendo diversos cenários. Os resultados demonstraram que a abordagem é promissora, mas existe a necessidade de melhorias para torná-la competitivaFacial detection is a subfield of computer vision, which involves finding human faces in an image. In 2001, a technique popularized in the literature under the name Viola & Jones was proposed, which achieved significant performance in detecting frontal faces, without drastic variations in lighting, facial expression, and without partial occlusion. After the publication of this technique, research efforts shifted towards detecting faces in uncontrolled environments, i.e., environments with occlusion, lighting variation, pose, and scale, among other characteristics. Relevant progress has been observed in recent decades, with a highlight on the use of deep learning in the field since the second decade of the 21st century. Although the accuracy in the main benchmarks of the area is above 90%, face detection in uncontrolled environments is still an open problem. In the literature of the field, it is possible to identify challenges to be overcome in specific scenarios involving skin color variation, expression, makeup, pose, and with the presence of partial face occlusions. Based on this, this dissertation presents an approach based on the use of multiple detectors, one detector for each specific scenario, and a switcher responsible for selecting the detector. To demonstrate the feasibility of the proposed approach, three experiments were carried out. In the first experiment, four detectors with different pre-trained architectures were evaluated on the MALF database, which contains detailed information about the faces in the images. Using this information, seven scenarios were described, and the detectors\' performance was evaluated in relation to these scenarios. The results showed a significant performance degradation in two scenarios: \"large yaw movement\" and \"large pitch movement\". In the second experiment, based on the information from the scenarios, fine-tuning was performed on the architectures used in the previous experiment. The architectures were adjusted only for two of the worst scenarios. This experiment aimed to verify if the architecture trained for a specific scenario could lead to a greater improvement in face detection in this scenario when compared to the architecture trained in all scenarios. Analyzing the results, this hypothesis was not confirmed. In the third experiment, the architectures were adjusted for one of the four scenarios: \"large yaw movement\", \"large roll movement\", \"occlusion\", and \"presence of glasses\". A switcher was trained to predict the scenario given a face image. Then, this approach was evaluated for the test set involving various scenarios unknown a priori. The performance was compared with the architectures trained on the entire dataset involving various scenarios. The results demonstrated that the approach is promising, but that it needs improvements to make it competitiveBiblioteca Digitais de Teses e Dissertações da USPLima, Clodoaldo Aparecido de MoraesDias, Bruno Gonçalves2024-04-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-02-20T14:16:02Zoai:teses.usp.br:tde-18062024-073139Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212025-02-20T14:16:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Detecção facial em diferentes cenários usando múltiplos modelos Facial detection in different scenarios using multiple models
title	Detecção facial em diferentes cenários usando múltiplos modelos
spellingShingle	Detecção facial em diferentes cenários usando múltiplos modelos Dias, Bruno Gonçalves Ambientes não controlados Cenários Convolutional Neural Networks Detecção de faces Face Detection Redes Neurais Convolucionais Scenarios Uncontrolled Environments
title_short	Detecção facial em diferentes cenários usando múltiplos modelos
title_full	Detecção facial em diferentes cenários usando múltiplos modelos
title_fullStr	Detecção facial em diferentes cenários usando múltiplos modelos
title_full_unstemmed	Detecção facial em diferentes cenários usando múltiplos modelos
title_sort	Detecção facial em diferentes cenários usando múltiplos modelos
author	Dias, Bruno Gonçalves
author_facet	Dias, Bruno Gonçalves
author_role	author
dc.contributor.none.fl_str_mv	Lima, Clodoaldo Aparecido de Moraes
dc.contributor.author.fl_str_mv	Dias, Bruno Gonçalves
dc.subject.por.fl_str_mv	Ambientes não controlados Cenários Convolutional Neural Networks Detecção de faces Face Detection Redes Neurais Convolucionais Scenarios Uncontrolled Environments
topic	Ambientes não controlados Cenários Convolutional Neural Networks Detecção de faces Face Detection Redes Neurais Convolucionais Scenarios Uncontrolled Environments
description	Detecção facial é uma subárea de visão computacional, que consiste em encontrar faces humanas numa imagem. Em 2001, foi proposto uma técnica, popularizada na literatura sob o nome de Viola & Jones, que alcançou desempenho expressivo na detecção de faces frontais, sem variação drástica de iluminação, expressão facial e sem presença de oclusão parcial. Após a publicação desta técnica, os esforços de pesquisa se dirigiram para detecção de faces em ambiente não controlados, isto é, ambientes com presença de oclusão, variação de iluminação, pose e escala, entre outras caraterísticas. Progresso relevante foi observado nas últimas décadas, com destaque para uso de aprendizado profundo na área a partir da segunda década do século XXI. Embora a acurácia nos principais benchmarkings da área esteja acima de 90%, a detecção de faces em ambientes não controlados ainda é um problema em aberto. Na literatura da área é possível identificar desafios a serem superados em cenários específicos que envolve variação de cor de pele, expressão, maquiagem, pose e com presença de oclusões parciais da face. Com base nisso, esta dissertação apresenta uma abordagem baseada no emprego de múltiplos detectores, um detector para cada cenário específico e um chaveador responsável pela seleção do detector mais adequado. Para demonstrar a viabilidade da abordagem proposta, foram realizados três experimentos. No primeiro experimento, quatro detectores pré-treinados com diferentes arquiteturas foram avaliados na base de dados MALF, que possui informações detalhadas das faces nas imagens. Utilizando estas informações, foram descritos sete cenários, o desempenho dos detectores foi avaliado em relação a estes cenários. Os resultados demonstraram uma degradação de desempenho expressiva em dois cenários: \"movimento grande de guinada\" e \"movimento grande de picada\". No segundo experimento, com base na informação dos cenários, foi realizado um ajuste fino nas arquiteturas utilizadas no experimento anterior. As arquiteturas foram ajustadas apenas para dois dos piores cenários. O objetivo deste experimento foi verificar se a arquitetura treinada para um cenário específico poderia conduzir a uma melhora maior na detecção de faces deste cenário quando comparada com a arquitetura treinada sobre todos os cenários. Analisando os resultados, esta hipótese não foi comprovada. No terceiro experimento, as arquiteturas foram ajustadas para um dos quatro cenários: \"movimento grande de guinada\", \"movimento grande de rolamento\", \"oclusão\" e \"presença de óculos\". Um chaveador foi treinado para predizer o cenário dada uma imagem de face. Em seguida, esta abordagem foi avaliada para o conjunto de teste envolvendo diversos cenários desconhecidos a priori. O desempenho foi comparado com as arquiteturas treinadas sobre toda a base envolvendo diversos cenários. Os resultados demonstraram que a abordagem é promissora, mas existe a necessidade de melhorias para torná-la competitiva
publishDate	2024
dc.date.none.fl_str_mv	2024-04-30
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/
url	https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1839839038811406336

Detecção facial em diferentes cenários usando múltiplos modelos

Similar Items