Seleção de atributos de dados inconsistentes
Main Author: | |
---|---|
Publication Date: | 2019 |
Format: | Master thesis |
Language: | por |
Source: | Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
Download full: | http://hdl.handle.net/10400.2/8066 |
Summary: | O tratamento de conjuntos de dados de grande dimensão é uma questão que é recorrente nos dias de hoje e cuja tarefa não é simples, dadas as limitações computacionais, ainda, existentes. Uma das abordagens possíveis passa por realizar uma seleção de atributos que permita diminuir, consideravelmente, a dimensão dos dados sem aumentar a inconsistência dos mesmos. “Rough Sets” é uma abordagem que difere doutras técnicas de seleção de atributos pela sua capacidade de lidar com dados inconsistentes. Outra abordagem para redução de dados é conhecida como Análise Lógica de Dados (LAD). A Análise Lógica de Dados Inconsistentes (LAID) junta as vantagens destas duas abordagens. Com o grande aumento do volume de dados, o paradigma, relativamente ao seu manuseamento, tem-se alterado. Antes, o tratamento dos dados era efetuado num único computador e o acesso era realizado depois do seu carregamento em memória. A tendência atual é aceder aos dados em disco, num ambiente cloud. O trabalho realizado pretende validar este novo paradigma, com recurso ao sistema de dados HDF5 (Hierarchical Data Format) e ao ambiente remoto disponibilizado pela INCD (Infraestrutura Nacional de Computação Distribuída). Pelo facto de o HDF5 ser o sistema adotado pela comunidade Python para lidar com dados de grande dimensão, esta linguagem foi escolhida para implementação do LAID. A presente dissertação é mais um contributo para o aprofundamento das técnicas de Data Mining (extração de conhecimento de dados). Nomeadamente, aborda a seleção de atributos (feature selection) aplicada a conjunto de dados de grande dimensão, guardados no formato HDF5, com avaliação da inconsistência dos dados, através da aplicação do algoritmo LAID, codificado em Python, num ambiente cloud. |
id |
RCAP_0ee09eb22d7801e9f023993e3c5935b6 |
---|---|
oai_identifier_str |
oai:repositorioaberto.uab.pt:10400.2/8066 |
network_acronym_str |
RCAP |
network_name_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
repository_id_str |
https://opendoar.ac.uk/repository/7160 |
spelling |
Seleção de atributos de dados inconsistentesData miningSeleção de atributosInconsistência de dadosAnálise Lógica de Dados (LAD)Análise Lógica de Dados Inconsistentes (LAID)Feature selectionLAIDData inconsistencyHDF5PythonINCDO tratamento de conjuntos de dados de grande dimensão é uma questão que é recorrente nos dias de hoje e cuja tarefa não é simples, dadas as limitações computacionais, ainda, existentes. Uma das abordagens possíveis passa por realizar uma seleção de atributos que permita diminuir, consideravelmente, a dimensão dos dados sem aumentar a inconsistência dos mesmos. “Rough Sets” é uma abordagem que difere doutras técnicas de seleção de atributos pela sua capacidade de lidar com dados inconsistentes. Outra abordagem para redução de dados é conhecida como Análise Lógica de Dados (LAD). A Análise Lógica de Dados Inconsistentes (LAID) junta as vantagens destas duas abordagens. Com o grande aumento do volume de dados, o paradigma, relativamente ao seu manuseamento, tem-se alterado. Antes, o tratamento dos dados era efetuado num único computador e o acesso era realizado depois do seu carregamento em memória. A tendência atual é aceder aos dados em disco, num ambiente cloud. O trabalho realizado pretende validar este novo paradigma, com recurso ao sistema de dados HDF5 (Hierarchical Data Format) e ao ambiente remoto disponibilizado pela INCD (Infraestrutura Nacional de Computação Distribuída). Pelo facto de o HDF5 ser o sistema adotado pela comunidade Python para lidar com dados de grande dimensão, esta linguagem foi escolhida para implementação do LAID. A presente dissertação é mais um contributo para o aprofundamento das técnicas de Data Mining (extração de conhecimento de dados). Nomeadamente, aborda a seleção de atributos (feature selection) aplicada a conjunto de dados de grande dimensão, guardados no formato HDF5, com avaliação da inconsistência dos dados, através da aplicação do algoritmo LAID, codificado em Python, num ambiente cloud.Cavique, LuísRepositório AbertoApolónia, João2019-04-01T15:06:16Z2019-02-072019-04-012019-02-07T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.2/8066urn:tid:202209377porinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-02-26T09:57:41Zoai:repositorioaberto.uab.pt:10400.2/8066Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T21:13:47.163867Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse |
dc.title.none.fl_str_mv |
Seleção de atributos de dados inconsistentes |
title |
Seleção de atributos de dados inconsistentes |
spellingShingle |
Seleção de atributos de dados inconsistentes Apolónia, João Data mining Seleção de atributos Inconsistência de dados Análise Lógica de Dados (LAD) Análise Lógica de Dados Inconsistentes (LAID) Feature selection LAID Data inconsistency HDF5 Python INCD |
title_short |
Seleção de atributos de dados inconsistentes |
title_full |
Seleção de atributos de dados inconsistentes |
title_fullStr |
Seleção de atributos de dados inconsistentes |
title_full_unstemmed |
Seleção de atributos de dados inconsistentes |
title_sort |
Seleção de atributos de dados inconsistentes |
author |
Apolónia, João |
author_facet |
Apolónia, João |
author_role |
author |
dc.contributor.none.fl_str_mv |
Cavique, Luís Repositório Aberto |
dc.contributor.author.fl_str_mv |
Apolónia, João |
dc.subject.por.fl_str_mv |
Data mining Seleção de atributos Inconsistência de dados Análise Lógica de Dados (LAD) Análise Lógica de Dados Inconsistentes (LAID) Feature selection LAID Data inconsistency HDF5 Python INCD |
topic |
Data mining Seleção de atributos Inconsistência de dados Análise Lógica de Dados (LAD) Análise Lógica de Dados Inconsistentes (LAID) Feature selection LAID Data inconsistency HDF5 Python INCD |
description |
O tratamento de conjuntos de dados de grande dimensão é uma questão que é recorrente nos dias de hoje e cuja tarefa não é simples, dadas as limitações computacionais, ainda, existentes. Uma das abordagens possíveis passa por realizar uma seleção de atributos que permita diminuir, consideravelmente, a dimensão dos dados sem aumentar a inconsistência dos mesmos. “Rough Sets” é uma abordagem que difere doutras técnicas de seleção de atributos pela sua capacidade de lidar com dados inconsistentes. Outra abordagem para redução de dados é conhecida como Análise Lógica de Dados (LAD). A Análise Lógica de Dados Inconsistentes (LAID) junta as vantagens destas duas abordagens. Com o grande aumento do volume de dados, o paradigma, relativamente ao seu manuseamento, tem-se alterado. Antes, o tratamento dos dados era efetuado num único computador e o acesso era realizado depois do seu carregamento em memória. A tendência atual é aceder aos dados em disco, num ambiente cloud. O trabalho realizado pretende validar este novo paradigma, com recurso ao sistema de dados HDF5 (Hierarchical Data Format) e ao ambiente remoto disponibilizado pela INCD (Infraestrutura Nacional de Computação Distribuída). Pelo facto de o HDF5 ser o sistema adotado pela comunidade Python para lidar com dados de grande dimensão, esta linguagem foi escolhida para implementação do LAID. A presente dissertação é mais um contributo para o aprofundamento das técnicas de Data Mining (extração de conhecimento de dados). Nomeadamente, aborda a seleção de atributos (feature selection) aplicada a conjunto de dados de grande dimensão, guardados no formato HDF5, com avaliação da inconsistência dos dados, através da aplicação do algoritmo LAID, codificado em Python, num ambiente cloud. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-04-01T15:06:16Z 2019-02-07 2019-04-01 2019-02-07T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.2/8066 urn:tid:202209377 |
url |
http://hdl.handle.net/10400.2/8066 |
identifier_str_mv |
urn:tid:202209377 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP |
instname_str |
FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
collection |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
repository.name.fl_str_mv |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
repository.mail.fl_str_mv |
info@rcaap.pt |
_version_ |
1833599157988753408 |