Uma abordagem para a escolha do melhor método de seleção de instâncias usando meta-aprendizagem

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: MOURA, Shayane de Oliveira
Orientador(a): CAVALCANTI, George Darmiton da Cunha
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Federal de Pernambuco
Programa de Pós-Graduação: Programa de Pos Graduacao em Ciencia da Computacao
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Link de acesso: https://repositorio.ufpe.br/handle/123456789/16311
Resumo: Os sistemas de Descoberta de Conhecimentos em Bases de Dados (mais conhecidos como sistemas KDD) e métodos de Aprendizagem de Máquinas preveem situações, agrupam e reconhecem padrões, entre outras tarefas que são demandas de um mundo no qual a maioria dos serviços está sendo oferecido por meio virtual. Apesar dessas aplicações se preocuparem em gerar informações de fácil interpretação, rápidas e confiáveis, as extensas bases de dados utilizadas dificultam o alcance de precisão unida a um baixo custo computacional. Para resolver esse problema, as bases de dados podem ser reduzidas com o objetivo de diminuir o tempo de processamento e facilitar o seu armazenamento, bem como, guardar apenas informações suficientes e relevantes para a extração do conhecimento. Nesse contexto, Métodos de Seleção de Instâncias (MSIs) têm sido propostos para reduzir e filtrar as bases de dados, selecionando ou criando novas instâncias que melhor as descrevam. Todavia, aqui se aplica o Teorema do No Free Lunch, ou seja, a performance dos MSIs varia conforme a base e nenhum dos métodos sempre sobrepõe seu desempenho aos demais. Por isso, esta dissertação propõe uma arquitetura para selecionar o “melhor” MSI para uma dada base de dados (mais adequado emrelação à precisão), chamadaMeta-CISM (Metalearning for Choosing Instance SelectionMethod). Estratégias de meta-aprendizagem são utilizadas para treinar um meta-classificador que aprende sobre o relacionamento entre a taxa de acerto de MSIs e a estrutura das bases. O Meta-CISM utiliza ainda reamostragem e métodos de seleção de atributos para melhorar o desempenho do meta-classificador. A proposta foi avaliada com os MSIs: C-pruner, DROP3, IB3, ICF e ENN-CNN. Os métodos de reamostragem utilizados foram: Bagging e Combination (método proposto neste trabalho). Foram utilizados como métodos de seleção de atributos: Relief-F, CFS, Chi Square Feature Evaluation e Consistency-Based Subset Evaluation. Cinco classificadores contribuíram para rotular as meta-instâncias: C4.5, PART, MLP-BP, SMO e KNN. Uma MLP-BP treinou o meta-classificador. Os experimentos foram realizados com dezesseis bases de dados públicas. O método proposto (Meta-CISM) foi melhor que todos os MSIs estudados, na maioria dos experimentos realizados. Visto que eficientemente seleciona um dos três melhores MSIs em mais de 85% dos casos, a abordagemé adequada para ser automaticamente utilizada na fase de pré-processamento das base de dados.