Seleção de atributos de dados inconsistentes

Bibliographic Details
Main Author: Apolónia, João
Publication Date: 2019
Format: Master thesis
Language: por
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: http://hdl.handle.net/10400.2/8066
Summary: O tratamento de conjuntos de dados de grande dimensão é uma questão que é recorrente nos dias de hoje e cuja tarefa não é simples, dadas as limitações computacionais, ainda, existentes. Uma das abordagens possíveis passa por realizar uma seleção de atributos que permita diminuir, consideravelmente, a dimensão dos dados sem aumentar a inconsistência dos mesmos. “Rough Sets” é uma abordagem que difere doutras técnicas de seleção de atributos pela sua capacidade de lidar com dados inconsistentes. Outra abordagem para redução de dados é conhecida como Análise Lógica de Dados (LAD). A Análise Lógica de Dados Inconsistentes (LAID) junta as vantagens destas duas abordagens. Com o grande aumento do volume de dados, o paradigma, relativamente ao seu manuseamento, tem-se alterado. Antes, o tratamento dos dados era efetuado num único computador e o acesso era realizado depois do seu carregamento em memória. A tendência atual é aceder aos dados em disco, num ambiente cloud. O trabalho realizado pretende validar este novo paradigma, com recurso ao sistema de dados HDF5 (Hierarchical Data Format) e ao ambiente remoto disponibilizado pela INCD (Infraestrutura Nacional de Computação Distribuída). Pelo facto de o HDF5 ser o sistema adotado pela comunidade Python para lidar com dados de grande dimensão, esta linguagem foi escolhida para implementação do LAID. A presente dissertação é mais um contributo para o aprofundamento das técnicas de Data Mining (extração de conhecimento de dados). Nomeadamente, aborda a seleção de atributos (feature selection) aplicada a conjunto de dados de grande dimensão, guardados no formato HDF5, com avaliação da inconsistência dos dados, através da aplicação do algoritmo LAID, codificado em Python, num ambiente cloud.
id RCAP_0ee09eb22d7801e9f023993e3c5935b6
oai_identifier_str oai:repositorioaberto.uab.pt:10400.2/8066
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Seleção de atributos de dados inconsistentesData miningSeleção de atributosInconsistência de dadosAnálise Lógica de Dados (LAD)Análise Lógica de Dados Inconsistentes (LAID)Feature selectionLAIDData inconsistencyHDF5PythonINCDO tratamento de conjuntos de dados de grande dimensão é uma questão que é recorrente nos dias de hoje e cuja tarefa não é simples, dadas as limitações computacionais, ainda, existentes. Uma das abordagens possíveis passa por realizar uma seleção de atributos que permita diminuir, consideravelmente, a dimensão dos dados sem aumentar a inconsistência dos mesmos. “Rough Sets” é uma abordagem que difere doutras técnicas de seleção de atributos pela sua capacidade de lidar com dados inconsistentes. Outra abordagem para redução de dados é conhecida como Análise Lógica de Dados (LAD). A Análise Lógica de Dados Inconsistentes (LAID) junta as vantagens destas duas abordagens. Com o grande aumento do volume de dados, o paradigma, relativamente ao seu manuseamento, tem-se alterado. Antes, o tratamento dos dados era efetuado num único computador e o acesso era realizado depois do seu carregamento em memória. A tendência atual é aceder aos dados em disco, num ambiente cloud. O trabalho realizado pretende validar este novo paradigma, com recurso ao sistema de dados HDF5 (Hierarchical Data Format) e ao ambiente remoto disponibilizado pela INCD (Infraestrutura Nacional de Computação Distribuída). Pelo facto de o HDF5 ser o sistema adotado pela comunidade Python para lidar com dados de grande dimensão, esta linguagem foi escolhida para implementação do LAID. A presente dissertação é mais um contributo para o aprofundamento das técnicas de Data Mining (extração de conhecimento de dados). Nomeadamente, aborda a seleção de atributos (feature selection) aplicada a conjunto de dados de grande dimensão, guardados no formato HDF5, com avaliação da inconsistência dos dados, através da aplicação do algoritmo LAID, codificado em Python, num ambiente cloud.Cavique, LuísRepositório AbertoApolónia, João2019-04-01T15:06:16Z2019-02-072019-04-012019-02-07T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.2/8066urn:tid:202209377porinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-02-26T09:57:41Zoai:repositorioaberto.uab.pt:10400.2/8066Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T21:13:47.163867Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Seleção de atributos de dados inconsistentes
title Seleção de atributos de dados inconsistentes
spellingShingle Seleção de atributos de dados inconsistentes
Apolónia, João
Data mining
Seleção de atributos
Inconsistência de dados
Análise Lógica de Dados (LAD)
Análise Lógica de Dados Inconsistentes (LAID)
Feature selection
LAID
Data inconsistency
HDF5
Python
INCD
title_short Seleção de atributos de dados inconsistentes
title_full Seleção de atributos de dados inconsistentes
title_fullStr Seleção de atributos de dados inconsistentes
title_full_unstemmed Seleção de atributos de dados inconsistentes
title_sort Seleção de atributos de dados inconsistentes
author Apolónia, João
author_facet Apolónia, João
author_role author
dc.contributor.none.fl_str_mv Cavique, Luís
Repositório Aberto
dc.contributor.author.fl_str_mv Apolónia, João
dc.subject.por.fl_str_mv Data mining
Seleção de atributos
Inconsistência de dados
Análise Lógica de Dados (LAD)
Análise Lógica de Dados Inconsistentes (LAID)
Feature selection
LAID
Data inconsistency
HDF5
Python
INCD
topic Data mining
Seleção de atributos
Inconsistência de dados
Análise Lógica de Dados (LAD)
Análise Lógica de Dados Inconsistentes (LAID)
Feature selection
LAID
Data inconsistency
HDF5
Python
INCD
description O tratamento de conjuntos de dados de grande dimensão é uma questão que é recorrente nos dias de hoje e cuja tarefa não é simples, dadas as limitações computacionais, ainda, existentes. Uma das abordagens possíveis passa por realizar uma seleção de atributos que permita diminuir, consideravelmente, a dimensão dos dados sem aumentar a inconsistência dos mesmos. “Rough Sets” é uma abordagem que difere doutras técnicas de seleção de atributos pela sua capacidade de lidar com dados inconsistentes. Outra abordagem para redução de dados é conhecida como Análise Lógica de Dados (LAD). A Análise Lógica de Dados Inconsistentes (LAID) junta as vantagens destas duas abordagens. Com o grande aumento do volume de dados, o paradigma, relativamente ao seu manuseamento, tem-se alterado. Antes, o tratamento dos dados era efetuado num único computador e o acesso era realizado depois do seu carregamento em memória. A tendência atual é aceder aos dados em disco, num ambiente cloud. O trabalho realizado pretende validar este novo paradigma, com recurso ao sistema de dados HDF5 (Hierarchical Data Format) e ao ambiente remoto disponibilizado pela INCD (Infraestrutura Nacional de Computação Distribuída). Pelo facto de o HDF5 ser o sistema adotado pela comunidade Python para lidar com dados de grande dimensão, esta linguagem foi escolhida para implementação do LAID. A presente dissertação é mais um contributo para o aprofundamento das técnicas de Data Mining (extração de conhecimento de dados). Nomeadamente, aborda a seleção de atributos (feature selection) aplicada a conjunto de dados de grande dimensão, guardados no formato HDF5, com avaliação da inconsistência dos dados, através da aplicação do algoritmo LAID, codificado em Python, num ambiente cloud.
publishDate 2019
dc.date.none.fl_str_mv 2019-04-01T15:06:16Z
2019-02-07
2019-04-01
2019-02-07T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.2/8066
urn:tid:202209377
url http://hdl.handle.net/10400.2/8066
identifier_str_mv urn:tid:202209377
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833599157988753408