Uma abordagem baseada em tipicidade e excentricidade para agrupamento e classificação de streams de dados

Detalhes bibliográficos
Ano de defesa: 2017
Autor(a) principal: Bezerra, Clauber Gomes
Orientador(a): Oliveira, Luiz Affonso Henderson Guedes de
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA E DE COMPUTAÇÃO
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: https://repositorio.ufrn.br/jspui/handle/123456789/24360
Resumo: Nesta tese apresentamos uma nova abordagem para realizar o agrupamento e a classificação de um conjunto de dados de forma não supervisionada. A abordagem proposta utiliza os conceitos de tipicidade e excentricidade usados pelo algoritmo TEDA na detecção de outliers. Para realizar o agrupamento e a classificação é proposto um algoritmo estatístico chamado Auto-Cloud. As amostras analisadas pelo Auto-Cloud são agrupadas em unidades chamadas de data clouds, que são estruturas que não possuem formato ou limites definidos. O Auto-Cloud permite que cada amostra analisada possa pertencer simultaneamente a várias data clouds. O Auto-Cloud é um algoritmo autônomo e evolutivo, que não necessita de treinamento ou qualquer conhecimento prévios sobre o conjunto de dados analisado. Ele permite a criação e a fusão das data clouds de forma autônoma, à medida que as amostras são lidas, sem qualquer intervenção humana. As características do algoritmo fazem com que ele seja indicado para o agrupamento e classificação de streams de dados e para aplicações que requerem respostas em tempo-real. O Auto- Cloud também é um algoritmo recursivo, o que o torna rápido e exige pouca quantidade de memória. Já no processo de classificação dos dados, o Auto-Cloud trabalha como um classificador fuzzy, calculando o grau de pertinência entre a amostra analisada e cada data cloud criada no processo de agrupamento. A classe a que pertence cada amostra é determinada pela data cloud com maior grau de pertinência com relação a amostra. Para validar o método proposto, aplicamos o mesmo em vários conjuntos de dados existentes na literatura sobre o assunto. Além disso, o método também foi validado numa aplicação de detecção e classificação de falhas em processos industriais, onde foram utilizados dados reais, obtidos de uma planta industrial.