Técnicas otimizadas de mineração de dados com Hadoop

Detalhes bibliográficos
Autor(a) principal: Silva, Felipe Bianchi da
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/31690
Resumo: Nowadays it is indisputable that the data is increasing exponentially and comes from the most diverse sources, this expansion leads to the creation of a mass of complex data. This mass of data is called Big Data and, linked to this concept, there is a need to create a data architecture that supports the extraction of information in a large and variable volume of data and even that makes the transformation of this data into information relevant to the more variable segments, quickly. This new reality requires computing new ways to keep up with the complexity of the data, among which is parallel and distributed computing, which uses a cluster of computers. However, this form of computation requires a specific knowledge from the user and in this context the Apache Hadoop appeared in order to solve the problems of distributed computing, through the application of a single open source framework seeking to isolate the programmer who works with large amounts of data from the need to address the traditional problems of distributed computing. The objective of this work is to apply data mining techniques in cluster together with partitioning techniques in the Hadoop framework and to verify the accuracy of the data and execution time obtained with this technique in comparison to the use of a single computer, in an attempt to demonstrate the effectiveness of Hadoop in storing and processing this data, which is in the proportion of petabytes daily, and its ability to reduce storage system costs and increase processing capacity.
id UTFPR-12_aa544f80376256cd9da13db228a6fe5e
oai_identifier_str oai:repositorio.utfpr.edu.br:1/31690
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Técnicas otimizadas de mineração de dados com HadoopOptimized data mining techniques with HadoopComputação em nuvemMineração de dados (Computação)Big dataCloud computingData miningCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAONowadays it is indisputable that the data is increasing exponentially and comes from the most diverse sources, this expansion leads to the creation of a mass of complex data. This mass of data is called Big Data and, linked to this concept, there is a need to create a data architecture that supports the extraction of information in a large and variable volume of data and even that makes the transformation of this data into information relevant to the more variable segments, quickly. This new reality requires computing new ways to keep up with the complexity of the data, among which is parallel and distributed computing, which uses a cluster of computers. However, this form of computation requires a specific knowledge from the user and in this context the Apache Hadoop appeared in order to solve the problems of distributed computing, through the application of a single open source framework seeking to isolate the programmer who works with large amounts of data from the need to address the traditional problems of distributed computing. The objective of this work is to apply data mining techniques in cluster together with partitioning techniques in the Hadoop framework and to verify the accuracy of the data and execution time obtained with this technique in comparison to the use of a single computer, in an attempt to demonstrate the effectiveness of Hadoop in storing and processing this data, which is in the proportion of petabytes daily, and its ability to reduce storage system costs and increase processing capacity.Na atualidade é indiscutível que os dados estão aumentando de forma exponencial e são provenientes das mais diversas fontes, esta expansão acarreta a criação de uma massa de dados complexos. Essa massa de dados é denominada Big Data e atrelado a esse conceito existe a necessidade da criação de uma arquitetura de dados que suporte a extração de informações em um grande e variável volume de dados e ainda que faça a transformação desses dados em informações relevantes para os mais variáveis seguimentos, de forma rápida. Essa nova realidade exige novos meios para acompanhar a complexidade dos dados, dentre estas está a computação paralela e distribuída que utiliza um aglomerado de computadores. Entretanto esta forma de computação exige do usuário conhecimento especifico e neste contexto surgiu o Apache Hadoop com a finalidade de resolver os problemas da computação distribuída, através da aplicação de um único arcabouço de código aberto buscando isolar o programador que trabalha com grandes quantidades de dados da necessidade de tratar os problemas tradicionais da computação distribuída. O objetivo deste trabalho é aplicar técnicas de mineração de dados em cluster em conjunto com técnicas de particionamento no arcabouço Hadoop e verificar a acurácia dos dados e tempo de execução de obtidos com esta técnica em comparação a utilização de um único computador, na busca de demonstrar a eficácia do Hadoop em armazenar e tratar esses dados, que estão na proporção de petabytes diariamente, e a sua capacidade de diminuir custos de sistemas de armazenamento e crescimento da capacidade de processamento.Universidade Tecnológica Federal do ParanáPato BrancoBrasilDepartamento Acadêmico de InformáticaEngenharia de ComputaçãoUTFPRPola, Ives Renê VenturiniPola, Ives Renê VenturiniRista, Luis Cassiano GoularteFavarim, FábioSilva, Felipe Bianchi da2023-07-06T13:55:00Z2023-07-06T13:55:00Z2023-06-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfSILVA, Felipe Bianchi da. Técnicas otimizadas de mineração de dados com Hadoop. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.http://repositorio.utfpr.edu.br/jspui/handle/1/31690porhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2023-07-07T06:08:44Zoai:repositorio.utfpr.edu.br:1/31690Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2023-07-07T06:08:44Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Técnicas otimizadas de mineração de dados com Hadoop
Optimized data mining techniques with Hadoop
title Técnicas otimizadas de mineração de dados com Hadoop
spellingShingle Técnicas otimizadas de mineração de dados com Hadoop
Silva, Felipe Bianchi da
Computação em nuvem
Mineração de dados (Computação)
Big data
Cloud computing
Data mining
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Técnicas otimizadas de mineração de dados com Hadoop
title_full Técnicas otimizadas de mineração de dados com Hadoop
title_fullStr Técnicas otimizadas de mineração de dados com Hadoop
title_full_unstemmed Técnicas otimizadas de mineração de dados com Hadoop
title_sort Técnicas otimizadas de mineração de dados com Hadoop
author Silva, Felipe Bianchi da
author_facet Silva, Felipe Bianchi da
author_role author
dc.contributor.none.fl_str_mv Pola, Ives Renê Venturini
Pola, Ives Renê Venturini
Rista, Luis Cassiano Goularte
Favarim, Fábio
dc.contributor.author.fl_str_mv Silva, Felipe Bianchi da
dc.subject.por.fl_str_mv Computação em nuvem
Mineração de dados (Computação)
Big data
Cloud computing
Data mining
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic Computação em nuvem
Mineração de dados (Computação)
Big data
Cloud computing
Data mining
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Nowadays it is indisputable that the data is increasing exponentially and comes from the most diverse sources, this expansion leads to the creation of a mass of complex data. This mass of data is called Big Data and, linked to this concept, there is a need to create a data architecture that supports the extraction of information in a large and variable volume of data and even that makes the transformation of this data into information relevant to the more variable segments, quickly. This new reality requires computing new ways to keep up with the complexity of the data, among which is parallel and distributed computing, which uses a cluster of computers. However, this form of computation requires a specific knowledge from the user and in this context the Apache Hadoop appeared in order to solve the problems of distributed computing, through the application of a single open source framework seeking to isolate the programmer who works with large amounts of data from the need to address the traditional problems of distributed computing. The objective of this work is to apply data mining techniques in cluster together with partitioning techniques in the Hadoop framework and to verify the accuracy of the data and execution time obtained with this technique in comparison to the use of a single computer, in an attempt to demonstrate the effectiveness of Hadoop in storing and processing this data, which is in the proportion of petabytes daily, and its ability to reduce storage system costs and increase processing capacity.
publishDate 2023
dc.date.none.fl_str_mv 2023-07-06T13:55:00Z
2023-07-06T13:55:00Z
2023-06-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SILVA, Felipe Bianchi da. Técnicas otimizadas de mineração de dados com Hadoop. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.
http://repositorio.utfpr.edu.br/jspui/handle/1/31690
identifier_str_mv SILVA, Felipe Bianchi da. Técnicas otimizadas de mineração de dados com Hadoop. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.
url http://repositorio.utfpr.edu.br/jspui/handle/1/31690
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Pato Branco
Brasil
Departamento Acadêmico de Informática
Engenharia de Computação
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Pato Branco
Brasil
Departamento Acadêmico de Informática
Engenharia de Computação
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850498051538419712