Seleção de protótipos com mapas-auto-organizáveis e entropia para sobreposição de classes e desbalanceamento de dados

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Rubbo, Márcio lattes
Orientador(a): Silva, Leandro Augusto da lattes
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Presbiteriana Mackenzie
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://dspace.mackenzie.br/handle/10899/24499
Resumo: O k vizinhos mais próximos (kNN) é um classificador supervisionado tradicional usado em tarefas de mineração de dados. No entanto, quando usado em aplicações reais, principalmente em uma base de dados com desbalanceamento ou sobreposição de classes, o kNN sofre com problemas na tarefa de classificação dos dados. Neste trabalho, são propostos três métodos de seleção de protótipos usando mapas-auto-organizáveis (SOM) e entropia da informação para aumentar a efetividade do classificador kNN em base de dados nessas condições. Bases de dados artificiais, simulando diferentes condições de sobreposição de dados e desbalanceamento, foram criadas e utilizadas em conjunto com bases de dados públicas para teste dos métodos. Medidas de dados complexos foram usadas para identificar sobreposição de dados e separação das classes nas bases usadas nos experimentos e uma comparação foi realizada com os resultados obtidos. Os métodos, nomeados SOMEntropyHighFilter, SOMEntropyLowFilter e SOMEntropyHighLowFilter, foram capazes de aumentar a eficiência do classificador kNN nas bases de dados artificiais e reais usadas para testes, aumentando a performance em bases de dados desbalanceadas ou com problemas de sobreposição.