Estratégia atencional para busca visual e reconhecimento invariante de objetos baseada na integração de características bottom-up e top-down

Detalhes bibliográficos
Ano de defesa: 2000
Autor(a) principal: Neves, Evelina Maria de Almeida
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/76/76132/tde-14032014-103419/
Resumo: Uma das tarefas básicas dos mecanismos atencionais é decidir qual a localização dentro do campo visual, em que devemos prestar atenção primeiro. Um objeto que contenha características distintas, tais como orientação, forma, cor, tamanho, brilho, textura, etc. diferentes, pode atrair a atenção de uma maneira \"bottom-up\". A informação \"top-down\" baseia-se no conhecimento prévio e tem uma grande influência nas localizações atendidas. Inspirado nos mecanismos da Atenção Visual Humana, embora sem a pretensão de simulá-la, este trabalho prevê o desenvolvimento de uma nova metodologia que integra os dois tipos de informações: \"bottom-up\" e \"top-down\". Características \"bottom-up\" são geradas a partir de Momentos e essas informações são utilizadas em mapas de saliência, enquanto que um conhecimento prévio é utilizado para gerar pistas \"top-down\". Neste trabalho, desenvolveu-se uma metodologia específica para a busca e o reconhecimento visual em cenas com múltiplos objetos, utilizando para isso uma rede \"fuzzy\" contendo três subsistemas \"fuzzy\". Dada uma imagem de entrada, o objetivo consiste em se detectar regiões que possam conter informações mais significativas, a fim de que se possa guiar e restringir processamentos mais complexos. A inclusão de mecanismos de atenção (seleção de uma região de interesse dentro da imagem) é de fundamental importância pois os resultados obtidos pelo método podem ser usados para controlar a aquisição da imagem de uma maneira dinâmica. O modelo proposto está estruturado em três estágios principais: O primeiro estágio consiste em se segmentar os objetos e extrair características globais dos mesmos baseadas principalmente na teoria dos momentos, tais como tamanho, orientação, formato e distância e também média de nível de cinza. Por intermédio da comparação de um objeto com os outros presentes na cena, características \"bottom-up\" de conspicuidade são usadas para guiar a atenção ao objeto mais diferente. Por intermédio do uso da lógica \"fuzzy\" é possível inferir com grande flexibilidade algumas regras de decisão baseadas nos princípios de percepção visual tais como as leis Gestalt. O segundo estágio consiste de um subsistema \"fuzzy top-down\" que combina diferentes características de acordo com a relevância das mesmas em diferentes tarefas. Finalmente, o terceiro estágio consiste de um subsistema \"fuzzy\" que integra as informações obtidas dos subsistemas anteriores e fornece um índice geral de saliência, e indica a provável localização do objeto a ser reconhecido. A nova abordagem foi testada com objetos geométricos levando-se em consideração as características que atraem a atenção dos serem humanos