Detecção facial em diferentes cenários usando múltiplos modelos
| Main Author: | |
|---|---|
| Publication Date: | 2024 |
| Format: | Master thesis |
| Language: | por |
| Source: | Biblioteca Digital de Teses e Dissertações da USP |
| Download full: | https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/ |
Summary: | Detecção facial é uma subárea de visão computacional, que consiste em encontrar faces humanas numa imagem. Em 2001, foi proposto uma técnica, popularizada na literatura sob o nome de Viola & Jones, que alcançou desempenho expressivo na detecção de faces frontais, sem variação drástica de iluminação, expressão facial e sem presença de oclusão parcial. Após a publicação desta técnica, os esforços de pesquisa se dirigiram para detecção de faces em ambiente não controlados, isto é, ambientes com presença de oclusão, variação de iluminação, pose e escala, entre outras caraterísticas. Progresso relevante foi observado nas últimas décadas, com destaque para uso de aprendizado profundo na área a partir da segunda década do século XXI. Embora a acurácia nos principais benchmarkings da área esteja acima de 90%, a detecção de faces em ambientes não controlados ainda é um problema em aberto. Na literatura da área é possível identificar desafios a serem superados em cenários específicos que envolve variação de cor de pele, expressão, maquiagem, pose e com presença de oclusões parciais da face. Com base nisso, esta dissertação apresenta uma abordagem baseada no emprego de múltiplos detectores, um detector para cada cenário específico e um chaveador responsável pela seleção do detector mais adequado. Para demonstrar a viabilidade da abordagem proposta, foram realizados três experimentos. No primeiro experimento, quatro detectores pré-treinados com diferentes arquiteturas foram avaliados na base de dados MALF, que possui informações detalhadas das faces nas imagens. Utilizando estas informações, foram descritos sete cenários, o desempenho dos detectores foi avaliado em relação a estes cenários. Os resultados demonstraram uma degradação de desempenho expressiva em dois cenários: \"movimento grande de guinada\" e \"movimento grande de picada\". No segundo experimento, com base na informação dos cenários, foi realizado um ajuste fino nas arquiteturas utilizadas no experimento anterior. As arquiteturas foram ajustadas apenas para dois dos piores cenários. O objetivo deste experimento foi verificar se a arquitetura treinada para um cenário específico poderia conduzir a uma melhora maior na detecção de faces deste cenário quando comparada com a arquitetura treinada sobre todos os cenários. Analisando os resultados, esta hipótese não foi comprovada. No terceiro experimento, as arquiteturas foram ajustadas para um dos quatro cenários: \"movimento grande de guinada\", \"movimento grande de rolamento\", \"oclusão\" e \"presença de óculos\". Um chaveador foi treinado para predizer o cenário dada uma imagem de face. Em seguida, esta abordagem foi avaliada para o conjunto de teste envolvendo diversos cenários desconhecidos a priori. O desempenho foi comparado com as arquiteturas treinadas sobre toda a base envolvendo diversos cenários. Os resultados demonstraram que a abordagem é promissora, mas existe a necessidade de melhorias para torná-la competitiva |
| id |
USP_e4d481c8d0ba5fe6ec441dfb64e28e26 |
|---|---|
| oai_identifier_str |
oai:teses.usp.br:tde-18062024-073139 |
| network_acronym_str |
USP |
| network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
| repository_id_str |
2721 |
| spelling |
Detecção facial em diferentes cenários usando múltiplos modelosFacial detection in different scenarios using multiple modelsAmbientes não controladosCenáriosConvolutional Neural NetworksDetecção de facesFace DetectionRedes Neurais ConvolucionaisScenariosUncontrolled EnvironmentsDetecção facial é uma subárea de visão computacional, que consiste em encontrar faces humanas numa imagem. Em 2001, foi proposto uma técnica, popularizada na literatura sob o nome de Viola & Jones, que alcançou desempenho expressivo na detecção de faces frontais, sem variação drástica de iluminação, expressão facial e sem presença de oclusão parcial. Após a publicação desta técnica, os esforços de pesquisa se dirigiram para detecção de faces em ambiente não controlados, isto é, ambientes com presença de oclusão, variação de iluminação, pose e escala, entre outras caraterísticas. Progresso relevante foi observado nas últimas décadas, com destaque para uso de aprendizado profundo na área a partir da segunda década do século XXI. Embora a acurácia nos principais benchmarkings da área esteja acima de 90%, a detecção de faces em ambientes não controlados ainda é um problema em aberto. Na literatura da área é possível identificar desafios a serem superados em cenários específicos que envolve variação de cor de pele, expressão, maquiagem, pose e com presença de oclusões parciais da face. Com base nisso, esta dissertação apresenta uma abordagem baseada no emprego de múltiplos detectores, um detector para cada cenário específico e um chaveador responsável pela seleção do detector mais adequado. Para demonstrar a viabilidade da abordagem proposta, foram realizados três experimentos. No primeiro experimento, quatro detectores pré-treinados com diferentes arquiteturas foram avaliados na base de dados MALF, que possui informações detalhadas das faces nas imagens. Utilizando estas informações, foram descritos sete cenários, o desempenho dos detectores foi avaliado em relação a estes cenários. Os resultados demonstraram uma degradação de desempenho expressiva em dois cenários: \"movimento grande de guinada\" e \"movimento grande de picada\". No segundo experimento, com base na informação dos cenários, foi realizado um ajuste fino nas arquiteturas utilizadas no experimento anterior. As arquiteturas foram ajustadas apenas para dois dos piores cenários. O objetivo deste experimento foi verificar se a arquitetura treinada para um cenário específico poderia conduzir a uma melhora maior na detecção de faces deste cenário quando comparada com a arquitetura treinada sobre todos os cenários. Analisando os resultados, esta hipótese não foi comprovada. No terceiro experimento, as arquiteturas foram ajustadas para um dos quatro cenários: \"movimento grande de guinada\", \"movimento grande de rolamento\", \"oclusão\" e \"presença de óculos\". Um chaveador foi treinado para predizer o cenário dada uma imagem de face. Em seguida, esta abordagem foi avaliada para o conjunto de teste envolvendo diversos cenários desconhecidos a priori. O desempenho foi comparado com as arquiteturas treinadas sobre toda a base envolvendo diversos cenários. Os resultados demonstraram que a abordagem é promissora, mas existe a necessidade de melhorias para torná-la competitivaFacial detection is a subfield of computer vision, which involves finding human faces in an image. In 2001, a technique popularized in the literature under the name Viola & Jones was proposed, which achieved significant performance in detecting frontal faces, without drastic variations in lighting, facial expression, and without partial occlusion. After the publication of this technique, research efforts shifted towards detecting faces in uncontrolled environments, i.e., environments with occlusion, lighting variation, pose, and scale, among other characteristics. Relevant progress has been observed in recent decades, with a highlight on the use of deep learning in the field since the second decade of the 21st century. Although the accuracy in the main benchmarks of the area is above 90%, face detection in uncontrolled environments is still an open problem. In the literature of the field, it is possible to identify challenges to be overcome in specific scenarios involving skin color variation, expression, makeup, pose, and with the presence of partial face occlusions. Based on this, this dissertation presents an approach based on the use of multiple detectors, one detector for each specific scenario, and a switcher responsible for selecting the detector. To demonstrate the feasibility of the proposed approach, three experiments were carried out. In the first experiment, four detectors with different pre-trained architectures were evaluated on the MALF database, which contains detailed information about the faces in the images. Using this information, seven scenarios were described, and the detectors\' performance was evaluated in relation to these scenarios. The results showed a significant performance degradation in two scenarios: \"large yaw movement\" and \"large pitch movement\". In the second experiment, based on the information from the scenarios, fine-tuning was performed on the architectures used in the previous experiment. The architectures were adjusted only for two of the worst scenarios. This experiment aimed to verify if the architecture trained for a specific scenario could lead to a greater improvement in face detection in this scenario when compared to the architecture trained in all scenarios. Analyzing the results, this hypothesis was not confirmed. In the third experiment, the architectures were adjusted for one of the four scenarios: \"large yaw movement\", \"large roll movement\", \"occlusion\", and \"presence of glasses\". A switcher was trained to predict the scenario given a face image. Then, this approach was evaluated for the test set involving various scenarios unknown a priori. The performance was compared with the architectures trained on the entire dataset involving various scenarios. The results demonstrated that the approach is promising, but that it needs improvements to make it competitiveBiblioteca Digitais de Teses e Dissertações da USPLima, Clodoaldo Aparecido de MoraesDias, Bruno Gonçalves2024-04-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2025-02-20T14:16:02Zoai:teses.usp.br:tde-18062024-073139Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212025-02-20T14:16:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
| dc.title.none.fl_str_mv |
Detecção facial em diferentes cenários usando múltiplos modelos Facial detection in different scenarios using multiple models |
| title |
Detecção facial em diferentes cenários usando múltiplos modelos |
| spellingShingle |
Detecção facial em diferentes cenários usando múltiplos modelos Dias, Bruno Gonçalves Ambientes não controlados Cenários Convolutional Neural Networks Detecção de faces Face Detection Redes Neurais Convolucionais Scenarios Uncontrolled Environments |
| title_short |
Detecção facial em diferentes cenários usando múltiplos modelos |
| title_full |
Detecção facial em diferentes cenários usando múltiplos modelos |
| title_fullStr |
Detecção facial em diferentes cenários usando múltiplos modelos |
| title_full_unstemmed |
Detecção facial em diferentes cenários usando múltiplos modelos |
| title_sort |
Detecção facial em diferentes cenários usando múltiplos modelos |
| author |
Dias, Bruno Gonçalves |
| author_facet |
Dias, Bruno Gonçalves |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Lima, Clodoaldo Aparecido de Moraes |
| dc.contributor.author.fl_str_mv |
Dias, Bruno Gonçalves |
| dc.subject.por.fl_str_mv |
Ambientes não controlados Cenários Convolutional Neural Networks Detecção de faces Face Detection Redes Neurais Convolucionais Scenarios Uncontrolled Environments |
| topic |
Ambientes não controlados Cenários Convolutional Neural Networks Detecção de faces Face Detection Redes Neurais Convolucionais Scenarios Uncontrolled Environments |
| description |
Detecção facial é uma subárea de visão computacional, que consiste em encontrar faces humanas numa imagem. Em 2001, foi proposto uma técnica, popularizada na literatura sob o nome de Viola & Jones, que alcançou desempenho expressivo na detecção de faces frontais, sem variação drástica de iluminação, expressão facial e sem presença de oclusão parcial. Após a publicação desta técnica, os esforços de pesquisa se dirigiram para detecção de faces em ambiente não controlados, isto é, ambientes com presença de oclusão, variação de iluminação, pose e escala, entre outras caraterísticas. Progresso relevante foi observado nas últimas décadas, com destaque para uso de aprendizado profundo na área a partir da segunda década do século XXI. Embora a acurácia nos principais benchmarkings da área esteja acima de 90%, a detecção de faces em ambientes não controlados ainda é um problema em aberto. Na literatura da área é possível identificar desafios a serem superados em cenários específicos que envolve variação de cor de pele, expressão, maquiagem, pose e com presença de oclusões parciais da face. Com base nisso, esta dissertação apresenta uma abordagem baseada no emprego de múltiplos detectores, um detector para cada cenário específico e um chaveador responsável pela seleção do detector mais adequado. Para demonstrar a viabilidade da abordagem proposta, foram realizados três experimentos. No primeiro experimento, quatro detectores pré-treinados com diferentes arquiteturas foram avaliados na base de dados MALF, que possui informações detalhadas das faces nas imagens. Utilizando estas informações, foram descritos sete cenários, o desempenho dos detectores foi avaliado em relação a estes cenários. Os resultados demonstraram uma degradação de desempenho expressiva em dois cenários: \"movimento grande de guinada\" e \"movimento grande de picada\". No segundo experimento, com base na informação dos cenários, foi realizado um ajuste fino nas arquiteturas utilizadas no experimento anterior. As arquiteturas foram ajustadas apenas para dois dos piores cenários. O objetivo deste experimento foi verificar se a arquitetura treinada para um cenário específico poderia conduzir a uma melhora maior na detecção de faces deste cenário quando comparada com a arquitetura treinada sobre todos os cenários. Analisando os resultados, esta hipótese não foi comprovada. No terceiro experimento, as arquiteturas foram ajustadas para um dos quatro cenários: \"movimento grande de guinada\", \"movimento grande de rolamento\", \"oclusão\" e \"presença de óculos\". Um chaveador foi treinado para predizer o cenário dada uma imagem de face. Em seguida, esta abordagem foi avaliada para o conjunto de teste envolvendo diversos cenários desconhecidos a priori. O desempenho foi comparado com as arquiteturas treinadas sobre toda a base envolvendo diversos cenários. Os resultados demonstraram que a abordagem é promissora, mas existe a necessidade de melhorias para torná-la competitiva |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-04-30 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/ |
| url |
https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/ |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.relation.none.fl_str_mv |
|
| dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.coverage.none.fl_str_mv |
|
| dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
| dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
| instname_str |
Universidade de São Paulo (USP) |
| instacron_str |
USP |
| institution |
USP |
| reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
| collection |
Biblioteca Digital de Teses e Dissertações da USP |
| repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
| repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
| _version_ |
1839839038811406336 |