Detalhes bibliográficos
Ano de defesa: |
2001 |
Autor(a) principal: |
Vollet, Rogerio |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-13112024-151007/
|
Resumo: |
As redes neurais artificiais baseadas no sistema nervoso da visão têm sido largamente aplicadas no reconhecimento de imagens estáticas, mas são ainda pouco exploradas no reconhecimento de padrões espaço-temporais como movimentos e gestos. Valendo-se das habilidades dessas redes e de outras capazes de estabelecer relações temporais entre os padrões de entrada, este trabalho propõe uma arquitetura de rede neural para o reconhecimento de gestos a fim de viabilizar a comunicação visual entre o homem e a máquina. Diversos trabalhos voltados ao reconhecimento de movimentos e gestos foram analisados, bem como as redes neurais de interesse para esta tarefa. As dificuldades envolvidas na aquisição dos movimentos também foram detalhadas, mostrando a necessidade de uma rede neural robusta para tolerar distorções de tamanho e forma causadas principalmente pelo posicionamento da câmera em relação ao movimento. De posse desses dados, uma arquitetura de rede neural de dimensões dinâmicamente definidas em função do tamanho da área de visão da câmera foi elaborada, baseando-se principalmente nas redes Neocognitron e Jordan. Com o objetivo de avaliar o seu desempenho, a rede foi treinada e testada com três variações diferentes de um conjunto de vinte e dois gestos adquiridos por uma câmera digital, onde cada treinamento foi repetido para cinco configurações diferentes de parâmetros do Neocognitron. O processo foi repetido usando-se todos os quadros do movimento em umaparte das avaliações, e usando apenas os quadros selecionados como passos do movimento em outra. Os resultados foram bastante satisfatórios considerando-se as dificuldades envolvidas, permitindo reconhecimentos corretos em torno de setenta por cento. A forma com que os testes foram executados permitiu ainda estabelecer relações claras entre os dados e parâmetros da rede na sua eficiência, fornecendo informações essencias para implementações futuras. |