Seleção de atributos relevantes: aplicando técnicas na base de dados do Herbário Virtual da Flora e dos Fungos
Ano de defesa: | 2017 |
---|---|
Autor(a) principal: | |
Outros Autores: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Federal do Amazonas
Instituto de Ciências Exatas e Tecnologia - Itacoatiara Brasil UFAM Programa de Pós-graduação em Ciência e Tecnologia para Recursos Amazônicos |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://tede.ufam.edu.br/handle/tede/6232 |
Resumo: | Os herbários virtuais têm como objetivo disseminar informações científicas e contribuir para a conservação e uso sustentável dos recursos biológicos brasileiros. Atualmente integra 120 herbários nacionais e 25 herbários do exterior, juntos disponibilizam mais de 5,4 milhões de registros e mais de um milhão de imagens, além de várias ferramentas de livre acesso, abrindo espaço para a aplicação de técnicas de Aprendizagem de Máquina, entre elas os classificadores. No processo de Aprendizagem de Máquina a Seleção de Atributos faz parte do pré-processamento de dados e que pode corresponder a 80% da fase da mineração de dados, para isso se faz necessário um estudo sobre das abordagens utilizadas para fazer a seleção de um subconjunto de atributos que melhor generalize a base para ser induzido ao modelo de aprendizado de máquina. O objetivo deste trabalho é aplicar os processos de seleção de atributos com as seguintes abordagens filtro, wrapper e embutido, na base de dados do Instituto Nacional de Ciência e Tecnologia – Herbário Virtual da Flora e dos Fungos, esta base contém 87.732 registros e 51 atributos, sendo 119 coleções e sub-coleções, 86.967 registros online, 80.513 registros georreferenciados, 12.073 espécies aceitas distintas. A primeira fase dos processos de aprendizado de máquina é o pré-processamento, que analisará a base de dados e resultará em uma base mais genérica e pronta para aplicação dos modelos preditivos de classificação, após o filtro do subconjunto de atributos mais relevantes aplicam-se os algoritmos de Aprendizagem de Máquina, que nesta pesquisa foi: Árvore de Decisão, Rede Neural Artificial e Regressão Logística. A avalição dos modelos será através da matriz de confusão utilizando a acurácia e a análise da área sobre a curva ROC. Dentre os modelos estudados o de Regressão Logística obteve o desempenho de classificação de acurácia de 77,25%, com a abordagem filtro e 76,25% com a wrapper. |