Detalhes bibliográficos
Ano de defesa: |
2021 |
Autor(a) principal: |
Roder, Mateus |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Universidade Estadual Paulista (Unesp)
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://hdl.handle.net/11449/204165
|
Resumo: |
Na última década, o crescimento exponencial dos dados apoiou o desenvolvimento de uma vasta gama de algoritmos baseados em aprendizado de máquina, além de possibilitar seus usos em aplicações cotidianas. Além disso, esta melhoria ou crescimento é parcialmente explicada pelo advento de técnicas de aprendizado em profundidade, ou seja, a composição de arquiteturas simples que geram modelos complexos e robustos. Embora técnicas de aprendizado em profundidade produzam resultados excelentes, elas também apresentam desvantagens em relação ao processo de aprendizagem, pois o treinamento de modelos complexos em grandes conjuntos de dados é computacionalmente custoso. Esse problema fica evidente quando se trata de análise e processamento de vídeos, como reconhecimento de ações ou eventos, uma vez que sequências de imagens (frames) são consideradas e produzem, geralmente, uma única saída. Outro problema relevante diz respeito à baixa quantidade de bancos de dados para determinadas tarefas, como a classificação de eventos de alto nível, fato que dificulta o desenvolvimento de algumas vertentes conceituais. Alguns trabalhos consideram a transferência de aprendizado ou a adaptação de domínio, ou seja, abordagens que mapeiam o conhecimento de um domínio para outro, a fim de aliviar a carga de treinamento, mas a maioria deles opera em blocos individuais ou pequenos blocos de frames. Portanto, neste trabalho é proposta uma nova abordagem para mapear o conhecimento entre domínios, do reconhecimento de ações até o reconhecimento/classificação de eventos utilizando modelos baseados em energia como função de mapeamento. Ademais, é proposta uma modificação no processamento dos vídeos para os modelos empregados, capaz de processar uma maior quantidade de frames simultaneamente, carregando informações espaciais e rastros temporais durante o processo de aprendizagem, o qual é denominado de processamento Somatório. Os resultados experimentais conduzidos em dois conjuntos de dados de vídeos públicos, o UCF-101 e o HMDB-51, retratam a eficácia da abordagem de adaptação de domínio e do processamento Somatório propostos, possibilitando uma redução do custo computacional em comparação aos modelos tradicionais baseados em energia, tais como Máquinas de Boltzmann Restritas, Redes de Crenças Profundas e Máquinas de Boltzmann Profundas. |