Uma avaliação empírica de transformações aleatórias aplicadas a ensembles de agrupamento de dados
Ano de defesa: | 2018 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Universidade Federal de Uberlândia
Brasil Programa de Pós-graduação em Ciência da Computação |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | https://repositorio.ufu.br/handle/123456789/24135 http://dx.doi.org/10.14393/ufu.di.2019.311 |
Resumo: | O número de técnicas de ensemble de agrupamento de dados cresceu nos últimos anos, oferecendo um melhor desempenho médio entre diversos domínios e conjuntos de dados. Benefícios colaterais são encontrar novos agrupamentos inatingíveis por um único algoritmo de agrupamento e também fornecer estabilidade de agrupamento. As principais estratégias de ensemble de agrupamento de dados são: combinar resultados de diferentes algoritmos de agrupamento; produzir resultados diferentes por meio de reamostragem dos dados, como nas técnicas de bagging e boosting; e executar um determinado algoritmo várias vezes com diferentes parâmetros ou inicialização. Muitas vezes, as técnicas de ensemble são desenvolvidas para ambientes supervisionados e, posteriormente, adaptadas para ambientes não supervisionados. Recentemente, Blaser e Fryzlewicz propuseram uma técnica de agrupamento para classificação baseada em reamostragem e transformação dos dados de entrada. Especificamente, eles empregaram rotações aleatórias para melhorar significativamente o desempenho de Random Forests. Neste trabalho, estudamos empiricamente os efeitos de transformações aleatórias baseadas em matrizes de rotação, distância de Mahalanobis e proximidade usando densidade para melhorar o ensemble de agrupamento de dados. Nossos experimentos consideraram 12 conjuntos de dados e 25 variações de transformações aleatórias, considerando então um total de 5100 conjuntos de dados aplicados a 8 algoritmos de agrupamento que foram avaliados por 4 medidas de avaliação. Testes estatísticos identificaram 17 transformações viáveis para serem aplicadas previamente em ensembles e em agrupamento de dados comum produzindo consistentemente efeitos positivos na qualidade do agrupamento. Em nossos experimentos, as melhores transformações foram as baseadas em Mahalanobis. Os algoritmos de agrupamento em ensemble que mais se beneĄciaram com as transformações foram o CBA e o bClust. |