Detalhes bibliográficos
Ano de defesa: |
2009 |
Autor(a) principal: |
Oliveira, Pedro Gonçalves de |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Não Informado pela instituição
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/87282
|
Resumo: |
Diversas bases de dados reais se caracterizam pela ausência marcante de determinados valores de seus atributos. Esses dados ausentes podem vir a degradar sobremaneira o desempenho de algoritmos de mineração de dados, dificultando a análise resultante. Uma maneira comum de tratar esse problema é via imputação, ou seja, estimação dos valores faltantes a partir de outros existentes na base. Este trabalho avalia como uma abordagem de imputação por otimização numérica utilizando algoritmos bio-inspirados pode vir a aprimorar o desempenho de classificadores induzidos sobre as bases pré-processadas. Três técnicas foram empregadas segundo esta abordagem: imputação utilizando algoritmo genético (GA), imputação utilizando otimização por enxame de partículas (PSO) e imputação utilizando co-evolução cooperativa. Com o intuito de analisar as técnicas propostas, em termos de eficiência e eficácia, seis bases de dados do repositório UCI e cinco populares algoritmos de classificação foram adotados. Para efeito de comparação, foram empregadas ainda outras duas técnicas tradicionais de imputação: a imputação pela média ou moda e a imputação fazendo uso do algoritmo KNN. O estudo mostra que todas as técnicas de imputação consideradas são capazes de elevar o desempenho dos classificadores. Os resultados obtidos não apontam para um método ótimo para todas as situações. Contudo, os experimentos sugerem que, em geral, as técnicas que fazem uso de algoritmos bio-inspirados são as mais eficazes ao passo que as técnicas tradicionais são as de melhor desempenho computacional. Observa-se também que os algoritmos co-evolução cooperativa e PSO, ainda não muito explorados no contexto de pré-processamento de dados, sobressaíram-se em diversos experimentos realizados. Palavras-Chave: Mineração de dados, Pré-processamento de dados, Imputação de valores faltantes, Metaheurísticas, Algoritmos genéticos, Otimização por enxame de partículas, Co-evolução cooperativa. |