A contribution to semantic description of images and videos: an application of soft biometrics
Ano de defesa: | 2015 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , , |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Curitiba |
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/1808 |
Resumo: | Os seres humanos possuem uma alta capacidade de extrair informações de dados visuais, adquiridos por meio da visão. Através de um processo de aprendizado, que se inicia ao nascer e continua ao longo da vida, a interpretação de imagens passa a ser feita de maneira quase instintiva. Em um relance, uma pessoa consegue facilmente descrever com certa precisão os componentes principais que compõem uma determinada cena. De maneira geral, isto é feito extraindo-se características de baixo nível, como arestas, texturas e formas, e associando-as com significados de alto nível. Ou seja, realiza-se uma descrição semântica desta cena. Um exemplo disto é a capacidade de reconhecer outras pessoas e descrever suas características físicas e comportamentais. A área de visão computacional tem como principal objetivo desenvolver métodos capazes de realizar interpretação visual com desempenho similar aos humanos. Estes métodos englobam conhecimento de aprendizado de máquina e processamento de imagens. Esta tese tem como objetivo propor métodos de visão computacional que permitam a extração de informações de alto nível na forma de biometrias leves. Estas biometrias representam características inerentes ao corpo e ao comportamento humano. Porém, não permitem a identificação unívoca de uma pessoa. Para tanto, este problema foi abordado de duas formas, aprendizado não-supervisionado e supervisionado. A primeira busca agrupar as imagens através de um processo de aprendizado automático de extração de características, empregando técnicas de convoluções, computação evolucionária e clusterização. Nesta abordagem as imagens utilizadas contém faces e pessoas. A segunda abordagem emprega redes neurais convolucionais, que possuem a capacidade de operar sobre imagens cruas, aprendendo tanto o processo de extração de características quanto a classificação. Aqui as imagens são classificadas de acordo com gênero e roupas, divididas em parte superior e inferior do corpo humano. A primeira abordagem, quando testada com diferentes bancos de imagens, obteve uma acurácia de aproximadamente 80% para faces e não-faces e 70% para pessoas e não-pessoas. A segunda, testada utilizando imagens e vídeos, obteve uma acurácia de cerca de 70% para gênero, 80% para roupas da parte superior e 90% para a parte inferior. Os resultados destes estudos de casos, mostram que os métodos propostos são promissores, permitindo a realização de anotação automática de informações de alto nível. Isto abre possibilidades para o desenvolvimento de aplicações em diversas áreas, como busca de imagens e vídeos baseada em conteúdo e segurança por vídeo, reduzindo o esforço humano nas tarefas de anotação manual e monitoramento. |