Detalhes bibliográficos
Ano de defesa: |
2017 |
Autor(a) principal: |
Lopes, André Vinícius |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://teses.usp.br/teses/disponiveis/45/45134/tde-20230727-113151/
|
Resumo: |
O projeto de W-operadores de imagens requer a estimação de um operador local a partir de exemplos de treinamento e da indução de um classificador baseado em aprendizado de máquina para a classificação de exemplos pouco, ou nunca, observados no treinamento. Nos últimos anos, a ârea de aprendizado de máquina passou por um avanço muito grande devido às redes neurais convolucionais (CNN). Esse avanço é principalmente devido ao poder de representação das redes neurais e pelo fato das redes convolucionais serem efetivas na extração de características locais. Devido a isso, elas estão presentes em muitas soluções do estado da arte de diversos problemas de visão computacional [MPGC 17, HGC+17, FTM+17, MZY+17, CGW+17]. Neste trabalho, estudamos e exploramos o poder de representação das CNNs no contexto do projeto de W-operadores de imagens. Integramos implementações públicas e bastante maduras de CNN a uma biblioteca de projeto de W-operadores desenvolvida pelo nosso grupo (TRIOS) e testamos diversas estratégias para segmentar imagens de níveis de cinza ou, ainda, classificar os padrões de intensidades em níveis de cinza observados através de uma janela W em poucos rótulos (em geral, dois rótulos, ou O, ou 1). Para validar a proposta, usamos 2 conjuntos de dados de imagens de fundo de olho, chamados de DRIVE e STARE, os quais já são um padrão na área de imagens para a segmentação das veias da retina e também em um conjunto de dados chamado de STAFF (KFV+13, VKFJ13], o qual é uma variação do banco de dados CVC-MUSCIMA [FDGL12] e tem o objetivo de segmentar notas musicais em partituras. Os resultados obtidos mostram que, para uma janela razoavelmente grande, os resultados são satisfatórias ao se comparar com soluções específicas do estado da arte, as quais utilizam heurísticas de pré e pós-processamento. |