Técnicas otimizadas de mineração de dados com Hadoop
| Autor(a) principal: | |
|---|---|
| Data de Publicação: | 2023 |
| Tipo de documento: | Trabalho de conclusão de curso |
| Idioma: | por |
| Título da fonte: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| Texto Completo: | http://repositorio.utfpr.edu.br/jspui/handle/1/31690 |
Resumo: | Nowadays it is indisputable that the data is increasing exponentially and comes from the most diverse sources, this expansion leads to the creation of a mass of complex data. This mass of data is called Big Data and, linked to this concept, there is a need to create a data architecture that supports the extraction of information in a large and variable volume of data and even that makes the transformation of this data into information relevant to the more variable segments, quickly. This new reality requires computing new ways to keep up with the complexity of the data, among which is parallel and distributed computing, which uses a cluster of computers. However, this form of computation requires a specific knowledge from the user and in this context the Apache Hadoop appeared in order to solve the problems of distributed computing, through the application of a single open source framework seeking to isolate the programmer who works with large amounts of data from the need to address the traditional problems of distributed computing. The objective of this work is to apply data mining techniques in cluster together with partitioning techniques in the Hadoop framework and to verify the accuracy of the data and execution time obtained with this technique in comparison to the use of a single computer, in an attempt to demonstrate the effectiveness of Hadoop in storing and processing this data, which is in the proportion of petabytes daily, and its ability to reduce storage system costs and increase processing capacity. |
| id |
UTFPR-12_aa544f80376256cd9da13db228a6fe5e |
|---|---|
| oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/31690 |
| network_acronym_str |
UTFPR-12 |
| network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository_id_str |
|
| spelling |
Técnicas otimizadas de mineração de dados com HadoopOptimized data mining techniques with HadoopComputação em nuvemMineração de dados (Computação)Big dataCloud computingData miningCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAONowadays it is indisputable that the data is increasing exponentially and comes from the most diverse sources, this expansion leads to the creation of a mass of complex data. This mass of data is called Big Data and, linked to this concept, there is a need to create a data architecture that supports the extraction of information in a large and variable volume of data and even that makes the transformation of this data into information relevant to the more variable segments, quickly. This new reality requires computing new ways to keep up with the complexity of the data, among which is parallel and distributed computing, which uses a cluster of computers. However, this form of computation requires a specific knowledge from the user and in this context the Apache Hadoop appeared in order to solve the problems of distributed computing, through the application of a single open source framework seeking to isolate the programmer who works with large amounts of data from the need to address the traditional problems of distributed computing. The objective of this work is to apply data mining techniques in cluster together with partitioning techniques in the Hadoop framework and to verify the accuracy of the data and execution time obtained with this technique in comparison to the use of a single computer, in an attempt to demonstrate the effectiveness of Hadoop in storing and processing this data, which is in the proportion of petabytes daily, and its ability to reduce storage system costs and increase processing capacity.Na atualidade é indiscutível que os dados estão aumentando de forma exponencial e são provenientes das mais diversas fontes, esta expansão acarreta a criação de uma massa de dados complexos. Essa massa de dados é denominada Big Data e atrelado a esse conceito existe a necessidade da criação de uma arquitetura de dados que suporte a extração de informações em um grande e variável volume de dados e ainda que faça a transformação desses dados em informações relevantes para os mais variáveis seguimentos, de forma rápida. Essa nova realidade exige novos meios para acompanhar a complexidade dos dados, dentre estas está a computação paralela e distribuída que utiliza um aglomerado de computadores. Entretanto esta forma de computação exige do usuário conhecimento especifico e neste contexto surgiu o Apache Hadoop com a finalidade de resolver os problemas da computação distribuída, através da aplicação de um único arcabouço de código aberto buscando isolar o programador que trabalha com grandes quantidades de dados da necessidade de tratar os problemas tradicionais da computação distribuída. O objetivo deste trabalho é aplicar técnicas de mineração de dados em cluster em conjunto com técnicas de particionamento no arcabouço Hadoop e verificar a acurácia dos dados e tempo de execução de obtidos com esta técnica em comparação a utilização de um único computador, na busca de demonstrar a eficácia do Hadoop em armazenar e tratar esses dados, que estão na proporção de petabytes diariamente, e a sua capacidade de diminuir custos de sistemas de armazenamento e crescimento da capacidade de processamento.Universidade Tecnológica Federal do ParanáPato BrancoBrasilDepartamento Acadêmico de InformáticaEngenharia de ComputaçãoUTFPRPola, Ives Renê VenturiniPola, Ives Renê VenturiniRista, Luis Cassiano GoularteFavarim, FábioSilva, Felipe Bianchi da2023-07-06T13:55:00Z2023-07-06T13:55:00Z2023-06-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfSILVA, Felipe Bianchi da. Técnicas otimizadas de mineração de dados com Hadoop. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.http://repositorio.utfpr.edu.br/jspui/handle/1/31690porhttp://creativecommons.org/licenses/by/4.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2023-07-07T06:08:44Zoai:repositorio.utfpr.edu.br:1/31690Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2023-07-07T06:08:44Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
| dc.title.none.fl_str_mv |
Técnicas otimizadas de mineração de dados com Hadoop Optimized data mining techniques with Hadoop |
| title |
Técnicas otimizadas de mineração de dados com Hadoop |
| spellingShingle |
Técnicas otimizadas de mineração de dados com Hadoop Silva, Felipe Bianchi da Computação em nuvem Mineração de dados (Computação) Big data Cloud computing Data mining CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| title_short |
Técnicas otimizadas de mineração de dados com Hadoop |
| title_full |
Técnicas otimizadas de mineração de dados com Hadoop |
| title_fullStr |
Técnicas otimizadas de mineração de dados com Hadoop |
| title_full_unstemmed |
Técnicas otimizadas de mineração de dados com Hadoop |
| title_sort |
Técnicas otimizadas de mineração de dados com Hadoop |
| author |
Silva, Felipe Bianchi da |
| author_facet |
Silva, Felipe Bianchi da |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Pola, Ives Renê Venturini Pola, Ives Renê Venturini Rista, Luis Cassiano Goularte Favarim, Fábio |
| dc.contributor.author.fl_str_mv |
Silva, Felipe Bianchi da |
| dc.subject.por.fl_str_mv |
Computação em nuvem Mineração de dados (Computação) Big data Cloud computing Data mining CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| topic |
Computação em nuvem Mineração de dados (Computação) Big data Cloud computing Data mining CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
| description |
Nowadays it is indisputable that the data is increasing exponentially and comes from the most diverse sources, this expansion leads to the creation of a mass of complex data. This mass of data is called Big Data and, linked to this concept, there is a need to create a data architecture that supports the extraction of information in a large and variable volume of data and even that makes the transformation of this data into information relevant to the more variable segments, quickly. This new reality requires computing new ways to keep up with the complexity of the data, among which is parallel and distributed computing, which uses a cluster of computers. However, this form of computation requires a specific knowledge from the user and in this context the Apache Hadoop appeared in order to solve the problems of distributed computing, through the application of a single open source framework seeking to isolate the programmer who works with large amounts of data from the need to address the traditional problems of distributed computing. The objective of this work is to apply data mining techniques in cluster together with partitioning techniques in the Hadoop framework and to verify the accuracy of the data and execution time obtained with this technique in comparison to the use of a single computer, in an attempt to demonstrate the effectiveness of Hadoop in storing and processing this data, which is in the proportion of petabytes daily, and its ability to reduce storage system costs and increase processing capacity. |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023-07-06T13:55:00Z 2023-07-06T13:55:00Z 2023-06-22 |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| format |
bachelorThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
SILVA, Felipe Bianchi da. Técnicas otimizadas de mineração de dados com Hadoop. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023. http://repositorio.utfpr.edu.br/jspui/handle/1/31690 |
| identifier_str_mv |
SILVA, Felipe Bianchi da. Técnicas otimizadas de mineração de dados com Hadoop. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023. |
| url |
http://repositorio.utfpr.edu.br/jspui/handle/1/31690 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by/4.0/ info:eu-repo/semantics/openAccess |
| rights_invalid_str_mv |
http://creativecommons.org/licenses/by/4.0/ |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Pato Branco Brasil Departamento Acadêmico de Informática Engenharia de Computação UTFPR |
| publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Pato Branco Brasil Departamento Acadêmico de Informática Engenharia de Computação UTFPR |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
| instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
| instacron_str |
UTFPR |
| institution |
UTFPR |
| reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
| repository.mail.fl_str_mv |
riut@utfpr.edu.br || sibi@utfpr.edu.br |
| _version_ |
1850498051538419712 |