Uma nova metodologia para seleção de atributos no processo de extração de conhecimento de base de dados baseada na Teoria de Rough Sets

Detalhes bibliográficos
Ano de defesa: 2008
Autor(a) principal: Teruya, Anderson
Orientador(a): Pinto, João Onofre Pereira
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://repositorio.ufms.br/handle/123456789/621
Resumo: Nesta dissertação de Mestrado, propõe-se uma nova metodologia de Seleção de Subconjuntos de Atributos, a ser utilizada no processo de extração de conhecimento de base de dados. As bases de dados, dimensionadas para diversos fins, possuem em sua essência, o conhecimento intrínseco ao sistema de sua aplicação. Esse conhecimento é muito valioso e importante para tomadas de decisões estratégicas nesse sistema. Assim, a proposta da Inteligência Artificial, através da subárea Mineração de Dados, é extrair esse conhecimento de bases de dados de forma automática. Com isso, introduziu-se o conceito de KDD, que implica em um processo de extração de conhecimento de base de dados. Uma das etapas do KDD é a Seleção de Subconjuntos de Atributos (SSA) que tem por objetivo analisar uma base de dados e eliminar atributos não importantes para o conhecimento a ser extraído, assim reduzindo o volume de dados a ser analisado, sem que haja alterações significativas no seu conteúdo. Então, analisando as metodologias de SSA existentes, em especial, Redutos na Teoria de Rough Sets, FOCUS e FOCUS-2, verificou-se que em Redutos selecionam-se atributos condicionais sem considerar o atributo de decisão que é o objeto do conhecimento a ser extraído. E na FOCUS e FOCUS-2, que aplica conceitos semelhantes à metodologia Redutos, implicando em análise de todas as combinações de exemplos (dois a dois), verifica-se que a aplicação ocorre para pares de exemplos pertencentes a classes diferentes, dessa forma considerando o atributo de decisão. A partir dessa análise, elaborou-se a metodologia proposta neste trabalho, que utiliza os conceitos introduzidos na Teoria de Rough Sets, com um diferencial na composição da Matriz de Discernimento. Esse diferencial considera o atributo de decisão na composição dessa matriz, como em FOCUS e FOCUS-2, indo mais além, por prover um tratamento diferenciado para exemplos pertencentes a mesma classe. Pois, criou-se a hipótese de um subconjunto de atributos, apontado por essa metodologia de SSA, conseguir distinguir todos os exemplos pertencentes a classes diferentes e não conseguir concluir que um exemplo pertence a mesma classe de outro exemplo, por ter todos os seus atributos condicionais diferentes entre si. Para viabilizar a implementação da proposta foi necessário introduzir uma simplificação nas matrizes de operação, pois suas dimensões, por definição, são muito grandes. Com isso, concluiu-se a sua implementação, e na seqüência a avaliação. Os resultados das avaliações, no geral, foram satisfatórios, com exceção de alguns pontos que são expostos e discutidos nos capítulos 7 e 8 deste trabalho.