Estudo comparativo entre métodos de agrupamento clássicos e redes neurais artificiais através de planejamento de experimento

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: BIANCHESI, Natália Maria Puggina
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Programa de Pós-Graduação: Mestrado - Engenharia de Produção
Departamento: IEPG - Instituto de Engenharia de Produção e Gestão
País: Não Informado pela instituição
Link de acesso: https://repositorio.unifei.edu.br/jspui/handle/123456789/2149
Resumo: A análise de cluster é uma técnica de mineração de dados multivariada amplamente usada em diversas áreas. Destina-se a agrupar automaticamente os n elementos da base de dados em k clusters, utilizando-se apenas das informações das variáveis de cada caso. No entanto, a precisão dos agrupamentos finais depende do método de clustering utilizado. Neste artigo, apresenta-se uma avaliação do desempenho dos principais métodos de análise de cluster: Ward, K-means e Self-Organizing Maps. Diferentemente de muitos estudos publicados na área, os conjuntos de dados foram gerados através de um Planejamento de Experimentos (DOE), de modo a simular diferentes estruturas de dados possíveis. Considerou-se o número de variáveis, número de clusters, tamanho da amostra, partição dos clusters, sobreposição dos clusters, e a presença de outliers, como os fatores do DOE. Os conjuntos de dados foram analisados por cada método de clustering e suas partições finais foram comparadas através do Attribute Agreement Analysis. Os resultados mostraram que o número de clusters, a sobreposição, e a interação entre o número de variáveis e o tamanho da amostra afetam significativamente todos os métodos estudados. Além disso, é possível afirmar que os métodos estudados não apresentam diferenças estatisticamente significativas, com um nível de significância de 5%, e não é possível classifica-los por desempenho.