Detalhes bibliográficos
Ano de defesa: |
2019 |
Autor(a) principal: |
LUCENA, Avyner Henrique Bezerra da Fonseca |
Orientador(a): |
VIMIEIRO, Renato |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso embargado |
Idioma: |
por |
Instituição de defesa: |
Universidade Federal de Pernambuco
|
Programa de Pós-Graduação: |
Programa de Pos Graduacao em Ciencia da Computacao
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: |
|
Link de acesso: |
https://repositorio.ufpe.br/handle/123456789/36682
|
Resumo: |
O trabalho proposto nesta dissertação, se trata de um novo algoritmo evolucionário para a área de Subgroup Discovery “SD”, com foco na mineração de padrões em conjuntos de dados numéricos de alta dimensionalidade. Subgroup Discovery é uma técnica descritiva para mineração de dados, cujo objetivo é encontrar e descrever subgrupos em conjuntos de dados, a partir de propriedades de interesse previamente definidas. A área em questão possui uma ampla gama de aplicações e casos de uso, porém poucas dessas técnicas são capazes de atuar adequadamente sobre atributos numéricos contínuos. O que pode ser considerado um problema, tendo em vista que conjuntos de dados provenientes do mundo real recorrentemente possuem atributos de diferentes tipos. Para poder trabalhar com dados contínuos, algumas técnicas de SD demandam discretização prévia de tais atributos. Porém, esse tipo de solução tende a trazer perda de informações e resultados imprecisos. Devido ao rápido desenvolvimento das tecnologias de coleta e armazenamento de dados, problemas cada vez mais complexos tendem a surgir. Um bom exemplo, são os conjuntos de dados de alta dimensionalidade, que, por sua vez, podem possuir centenas de milhares de atributos, tornando ainda mais desafiadora a tarefa de mineração de padrões e consequentemente, a descoberta de subgrupos. Até o momento, não existem trabalhos publicados na área com foco em conjuntos numéricos de alta dimensionalidade. Então, o rabalho aqui proposto visa otimizar o processo de descoberta de subgrupos por meio de dois aspectos principais, que são: i) trabalhar adequadamente com dados contínuos sem eixar de abranger categóricos, e ii) propor uma estratégia evolucionária capaz de lidar com conjuntos de dados de alta dimensionalidade. Após a realização de um amplo estudo experimental, o algoritmo proposto se demonstrou competitivo e, muitas vezes, superior em relação a outras técnicas do estado da arte e trabalhos recém-publicados na área. |