Detecção facial em diferentes cenários usando múltiplos modelos

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Dias, Bruno Gonçalves
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/100/100131/tde-18062024-073139/
Resumo: Detecção facial é uma subárea de visão computacional, que consiste em encontrar faces humanas numa imagem. Em 2001, foi proposto uma técnica, popularizada na literatura sob o nome de Viola & Jones, que alcançou desempenho expressivo na detecção de faces frontais, sem variação drástica de iluminação, expressão facial e sem presença de oclusão parcial. Após a publicação desta técnica, os esforços de pesquisa se dirigiram para detecção de faces em ambiente não controlados, isto é, ambientes com presença de oclusão, variação de iluminação, pose e escala, entre outras caraterísticas. Progresso relevante foi observado nas últimas décadas, com destaque para uso de aprendizado profundo na área a partir da segunda década do século XXI. Embora a acurácia nos principais benchmarkings da área esteja acima de 90%, a detecção de faces em ambientes não controlados ainda é um problema em aberto. Na literatura da área é possível identificar desafios a serem superados em cenários específicos que envolve variação de cor de pele, expressão, maquiagem, pose e com presença de oclusões parciais da face. Com base nisso, esta dissertação apresenta uma abordagem baseada no emprego de múltiplos detectores, um detector para cada cenário específico e um chaveador responsável pela seleção do detector mais adequado. Para demonstrar a viabilidade da abordagem proposta, foram realizados três experimentos. No primeiro experimento, quatro detectores pré-treinados com diferentes arquiteturas foram avaliados na base de dados MALF, que possui informações detalhadas das faces nas imagens. Utilizando estas informações, foram descritos sete cenários, o desempenho dos detectores foi avaliado em relação a estes cenários. Os resultados demonstraram uma degradação de desempenho expressiva em dois cenários: \"movimento grande de guinada\" e \"movimento grande de picada\". No segundo experimento, com base na informação dos cenários, foi realizado um ajuste fino nas arquiteturas utilizadas no experimento anterior. As arquiteturas foram ajustadas apenas para dois dos piores cenários. O objetivo deste experimento foi verificar se a arquitetura treinada para um cenário específico poderia conduzir a uma melhora maior na detecção de faces deste cenário quando comparada com a arquitetura treinada sobre todos os cenários. Analisando os resultados, esta hipótese não foi comprovada. No terceiro experimento, as arquiteturas foram ajustadas para um dos quatro cenários: \"movimento grande de guinada\", \"movimento grande de rolamento\", \"oclusão\" e \"presença de óculos\". Um chaveador foi treinado para predizer o cenário dada uma imagem de face. Em seguida, esta abordagem foi avaliada para o conjunto de teste envolvendo diversos cenários desconhecidos a priori. O desempenho foi comparado com as arquiteturas treinadas sobre toda a base envolvendo diversos cenários. Os resultados demonstraram que a abordagem é promissora, mas existe a necessidade de melhorias para torná-la competitiva