Análise de soluções para Big Data Mining

Bibliographic Details
Main Author: Junceira, João Miguel da Conceição
Publication Date: 2017
Format: Master thesis
Language: por
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: http://hdl.handle.net/10400.21/8300
Summary: Minerar dados não é uma tarefa trivial. Exige o conhecimento de diversos conceitos e técnicas que não estão acessíveis para a maioria dos utilizadores. Ocrescente volume de dados e a maior consciencialização do valor que estes podem ter para as organizações levou a um maior número de pessoas a ter de os analisar. Nos últimos anos, surgiram ferramentas de mineração em larga escala com uma curva de aprendizagem maior face às suas congéneres clássicas. Usam armazenamento e processamento distribuído para lidar com a dimensão dos dados, o que trouxe novos problemas na implementação de soluções de mineração de dados. Este trabalho aborda o estado da arte das plataformas existentes e a sua evolução histórica. Usando como base uma plataforma de mineração em larga escala (Apache Spark) e uma plataforma clássica (R), elaborou-se o desenho de uma solução de classificação e regressão, independentemente das plataformas utilizadas. Concretizou-se essa solução para cada plataforma para perceber o ponto a partir do qual o desempenho das duas mais se afasta, indicando um possível retorno no investimento na aprendizagem das novas plataformas. Para o conjunto de dados usado, concluiu-se que o Apache Spark é mais vantajoso quando o número de instâncias atinge as 50 mil.
id RCAP_3af49d40e400b51fcc37cd625514a555
oai_identifier_str oai:repositorio.ipl.pt:10400.21/8300
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Análise de soluções para Big Data MiningBig DataData miningClassificationRegressionApache sparkMineração de dadosClassificaçãoRegressãoRMinerar dados não é uma tarefa trivial. Exige o conhecimento de diversos conceitos e técnicas que não estão acessíveis para a maioria dos utilizadores. Ocrescente volume de dados e a maior consciencialização do valor que estes podem ter para as organizações levou a um maior número de pessoas a ter de os analisar. Nos últimos anos, surgiram ferramentas de mineração em larga escala com uma curva de aprendizagem maior face às suas congéneres clássicas. Usam armazenamento e processamento distribuído para lidar com a dimensão dos dados, o que trouxe novos problemas na implementação de soluções de mineração de dados. Este trabalho aborda o estado da arte das plataformas existentes e a sua evolução histórica. Usando como base uma plataforma de mineração em larga escala (Apache Spark) e uma plataforma clássica (R), elaborou-se o desenho de uma solução de classificação e regressão, independentemente das plataformas utilizadas. Concretizou-se essa solução para cada plataforma para perceber o ponto a partir do qual o desempenho das duas mais se afasta, indicando um possível retorno no investimento na aprendizagem das novas plataformas. Para o conjunto de dados usado, concluiu-se que o Apache Spark é mais vantajoso quando o número de instâncias atinge as 50 mil.Mining data is a difficult task that requires knowledge of several concepts and techniques that are not available to the majority of users. Over the last years, Big Data Mining tools rose to prominence. However, they have a bigger learning curve, as compared with classic tools. Distributed storage and processing brought new problems in the implementation of Data mining solutions. The state of the art of existing platforms and their historical evolution was carried out. A solution and architecture independent of platforms and a description of the differences of implementation are detailed. Testing and benchmarking of performance making a comparison between large scale data mining platform Apache Spark and it’s classic counterpart R making clear to the user which scenario brings more advantages to the new platforms. Apache Spark has a clear advantage when tested with a dataset over 50 thousand instances.Instituto Superior de Engenharia de LisboaDatia, Nuno Miguel SoaresPato, Matilde Pós-de-MinaRCIPLJunceira, João Miguel da Conceição2018-03-27T19:33:31Z2017-12-212017-12-21T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.21/8300urn:tid:201893770porinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-02-12T07:59:07Zoai:repositorio.ipl.pt:10400.21/8300Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T19:52:43.313288Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Análise de soluções para Big Data Mining
title Análise de soluções para Big Data Mining
spellingShingle Análise de soluções para Big Data Mining
Junceira, João Miguel da Conceição
Big Data
Data mining
Classification
Regression
Apache spark
Mineração de dados
Classificação
Regressão
R
title_short Análise de soluções para Big Data Mining
title_full Análise de soluções para Big Data Mining
title_fullStr Análise de soluções para Big Data Mining
title_full_unstemmed Análise de soluções para Big Data Mining
title_sort Análise de soluções para Big Data Mining
author Junceira, João Miguel da Conceição
author_facet Junceira, João Miguel da Conceição
author_role author
dc.contributor.none.fl_str_mv Datia, Nuno Miguel Soares
Pato, Matilde Pós-de-Mina
RCIPL
dc.contributor.author.fl_str_mv Junceira, João Miguel da Conceição
dc.subject.por.fl_str_mv Big Data
Data mining
Classification
Regression
Apache spark
Mineração de dados
Classificação
Regressão
R
topic Big Data
Data mining
Classification
Regression
Apache spark
Mineração de dados
Classificação
Regressão
R
description Minerar dados não é uma tarefa trivial. Exige o conhecimento de diversos conceitos e técnicas que não estão acessíveis para a maioria dos utilizadores. Ocrescente volume de dados e a maior consciencialização do valor que estes podem ter para as organizações levou a um maior número de pessoas a ter de os analisar. Nos últimos anos, surgiram ferramentas de mineração em larga escala com uma curva de aprendizagem maior face às suas congéneres clássicas. Usam armazenamento e processamento distribuído para lidar com a dimensão dos dados, o que trouxe novos problemas na implementação de soluções de mineração de dados. Este trabalho aborda o estado da arte das plataformas existentes e a sua evolução histórica. Usando como base uma plataforma de mineração em larga escala (Apache Spark) e uma plataforma clássica (R), elaborou-se o desenho de uma solução de classificação e regressão, independentemente das plataformas utilizadas. Concretizou-se essa solução para cada plataforma para perceber o ponto a partir do qual o desempenho das duas mais se afasta, indicando um possível retorno no investimento na aprendizagem das novas plataformas. Para o conjunto de dados usado, concluiu-se que o Apache Spark é mais vantajoso quando o número de instâncias atinge as 50 mil.
publishDate 2017
dc.date.none.fl_str_mv 2017-12-21
2017-12-21T00:00:00Z
2018-03-27T19:33:31Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.21/8300
urn:tid:201893770
url http://hdl.handle.net/10400.21/8300
identifier_str_mv urn:tid:201893770
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Instituto Superior de Engenharia de Lisboa
publisher.none.fl_str_mv Instituto Superior de Engenharia de Lisboa
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833598372970233856