Detalhes bibliográficos
Ano de defesa: |
2023 |
Autor(a) principal: |
Todescato, Matheus Vinícius |
Orientador(a): |
Carbonera, Joel Luis |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
eng |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Palavras-chave em Inglês: |
|
Link de acesso: |
http://hdl.handle.net/10183/281672
|
Resumo: |
As arquiteturas de aprendizado profundo demonstraram excelentes resultados na classificação de imagens nos últimos anos. No entanto, a aplicação de arquiteturas de redes neurais sofisticadas em pequenos conjuntos de dados continua sendo um desafio. Nesse contexto, a aprendizagem por transferência é uma abordagem promissora para lidar com esse cenário. Geralmente, as arquiteturas pré-treinadas disponíveis adotam uma entrada fixa padrão, o que geralmente implica em redimensionar e recortar as imagens de entrada na fase de pré-processamento, causando perda de informações. Além disso, no mundo real, as imagens apresentam características visuais em diferentes escalas, e as aborda gens mais comuns não consideram esse fato. Neste trabalho, propomos uma abordagem que aplica transferência de conhecimento para lidar com pequenos conjuntos de dados e aproveita características visuais extraídas por modelos pré-treinados de diferentes escalas. Baseamos nossa abordagem em redes convolucionais de grafos (GCN) que recebem como entrada grafos que representam as imagens em diferentes escalas e cujos nós são caracterizados por características extraídas por modelos pré-treinados de partes regulares de imagens em diferentes escalas. Como o GCN pode lidar com grafos com diferentes números de nós, nossa abordagem pode lidar naturalmente com imagens de tamanhos he terogêneos sem descartar informações relevantes. Avaliamos nossa abordagem em dois conjuntos de dados: um conjunto de imagens geológicas e um conjunto de dados dis poníveis publicamente, ambos apresentando características que desafiam as abordagens tradicionais. Testamos nossa abordagem adotando três modelos pré-treinados diferentes como extratores de características: dois modelos eficientes de CNN pré-treinados (Den seNet e ResNeXt) e um Vision Transformer (CLIP). Comparamos nossa abordagem com duas abordagens convencionais para lidar com a classificação de imagens. Os experi mentos mostram que nossa abordagem alcança melhores resultados do que as abordagens convencionais para esta tarefa. |