Seleção automática de índices internos de validação de agrupamento

Detalhes bibliográficos
Ano de defesa: 2015
Autor(a) principal: Tomasini, Caroline
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://repositorio.furg.br/handle/1/9318
Resumo: A validação dos resultados de agrupamento é uma questão importante na área de aprendizado de máquina e é essencial para o sucesso das aplicações relacionadas a agrupamento de dados. No entanto, escolher o índice de validação adequado para avaliar os resultados de um algoritmo de agrupamento específico continua sendo um desafio. A qualidade das partições geradas por diferentes algoritmos de agrupamento pode ser avaliada utilizando diferentes índices com base em critérios externos ou internos. Um critério externo requer que o particionamento ideal seja conhecido a priori para a comparação com os resultados de agrupamento. Já o critério interno avalia os resultados de agrupamento considerando apenas as propriedades do conjunto de dados. Neste trabalho, é proposta uma metodologia para a escolha do índice interno de validação de agrupamento mais adequado, relacionando critérios externos e internos através de um modelo de regressão linear aplicado sobre os resultados de algoritmos de agrupamento particionais e baseados em densidade. Cada algoritmo foi aplicado sobre conjuntos de dados sintéticos que foram gerados para este fim, usando diferentes configurações. Os resultados de agrupamento foram avaliados por diferentes índices com base em critérios internos e externos que geraram a entrada para os modelos de regressão. A análise destes modelos permitiu a inferência do índice interno mais adequado para cada método de algoritmo de agrupamento. Por fim, foi realizada uma validação dos modelos encontrados utilizando conjuntos de dados reais e sintéticos utilizados em outros trabalhos da literatura.