Processo de desenvolvimento de uma feature store a partir de dados de web scraping

Bibliographic Details
Main Author: Silva, Pedro Augutos de Lima e
Publication Date: 2023
Format: Bachelor thesis
Language: por
Source: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Download full: http://repositorio.utfpr.edu.br/jspui/handle/1/35499
Summary: With the growth of the electronic games industry and the dependence on data for decision making, the work seeks to present a data transformation process until it is significantly safe and ready for analysis or to be acquired by an machine model learning . As an example, let’s use event data from Counter Strike championship matches. This process consists of an web scraping step, where it was necessary to develop an script in Python to standardize the process, and another data transformation step using the Spark processing engine, since the amount of extracted data was considerably large. The result is an feature store, which is a set of data about the statistics of professional players in championships with prizes above 100 thousand dollars.
id UTFPR-12_d660e53cf69cd3698d2ccfc4425dd3d9
oai_identifier_str oai:repositorio.utfpr.edu.br:1/35499
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Processo de desenvolvimento de uma feature store a partir de dados de web scrapingFeature store development processSistemas de coleta automática de dadosMineração de dados (Computação)Armazenamento de dadosProcessamento eletrônico de dadosPython (Linguagem de programação de computador)Estruturas de dados (Computação)Automatic data collection systemsData miningData WarehousingElectronic data processingPython (Computer program language)Data structures (Computer science)CNPQ::CIENCIAS EXATAS E DA TERRAWith the growth of the electronic games industry and the dependence on data for decision making, the work seeks to present a data transformation process until it is significantly safe and ready for analysis or to be acquired by an machine model learning . As an example, let’s use event data from Counter Strike championship matches. This process consists of an web scraping step, where it was necessary to develop an script in Python to standardize the process, and another data transformation step using the Spark processing engine, since the amount of extracted data was considerably large. The result is an feature store, which is a set of data about the statistics of professional players in championships with prizes above 100 thousand dollars.Com o crescimento da indústria de jogos eletrônicos e a dependência de dados para as tomadas de decisões, o trabalho busca apresentar um processo transformação dos dados até estar significativamente estruturado e pronto para a análise ou para ser consumido por um modelo de machine learning. Como exemplo, vamos utilizar dados de eventos de partidas de campeonatos de Counter Strike. Esse processo é composto por uma etapa de web scraping, onde foi necessário desenvolver um script em Python para padronizar o processo, e outra etapa de transformação dos dados utilizando o motor de processamento Spark, uma vez que a quantidade de dados extraídos foi consideravelmente grande. O resultado é uma feature store, onde é um conjunto de dados sobre as estatísticas dos jogadores profissionais em campeonatos com premiações acima de 100 mil dólares.Universidade Tecnológica Federal do ParanáCuritibaBrasilCiência de Dados e suas AplicaçõesUTFPRGritti, Marcos CesarBerardi, Rita Cristina GalarragaGritti, Marcos CesarBerardi, Rita Cristina GalarragaRosa, Marcelo de OliveiraSilva, Pedro Augutos de Lima e2024-11-21T20:54:33Z2024-11-21T20:54:33Z2023-03-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfSILVA, Pedro Augusto de Lima e. Processo de desenvolvimento de uma feature store a partir de dados de web scraping. 2022. Trabalho de Conclusão de Curso de Especialização (Ciência de Dados e suas Aplicações) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022.http://repositorio.utfpr.edu.br/jspui/handle/1/35499porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2024-11-22T06:08:33Zoai:repositorio.utfpr.edu.br:1/35499Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2024-11-22T06:08:33Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Processo de desenvolvimento de uma feature store a partir de dados de web scraping
Feature store development process
title Processo de desenvolvimento de uma feature store a partir de dados de web scraping
spellingShingle Processo de desenvolvimento de uma feature store a partir de dados de web scraping
Silva, Pedro Augutos de Lima e
Sistemas de coleta automática de dados
Mineração de dados (Computação)
Armazenamento de dados
Processamento eletrônico de dados
Python (Linguagem de programação de computador)
Estruturas de dados (Computação)
Automatic data collection systems
Data mining
Data Warehousing
Electronic data processing
Python (Computer program language)
Data structures (Computer science)
CNPQ::CIENCIAS EXATAS E DA TERRA
title_short Processo de desenvolvimento de uma feature store a partir de dados de web scraping
title_full Processo de desenvolvimento de uma feature store a partir de dados de web scraping
title_fullStr Processo de desenvolvimento de uma feature store a partir de dados de web scraping
title_full_unstemmed Processo de desenvolvimento de uma feature store a partir de dados de web scraping
title_sort Processo de desenvolvimento de uma feature store a partir de dados de web scraping
author Silva, Pedro Augutos de Lima e
author_facet Silva, Pedro Augutos de Lima e
author_role author
dc.contributor.none.fl_str_mv Gritti, Marcos Cesar
Berardi, Rita Cristina Galarraga
Gritti, Marcos Cesar
Berardi, Rita Cristina Galarraga
Rosa, Marcelo de Oliveira
dc.contributor.author.fl_str_mv Silva, Pedro Augutos de Lima e
dc.subject.por.fl_str_mv Sistemas de coleta automática de dados
Mineração de dados (Computação)
Armazenamento de dados
Processamento eletrônico de dados
Python (Linguagem de programação de computador)
Estruturas de dados (Computação)
Automatic data collection systems
Data mining
Data Warehousing
Electronic data processing
Python (Computer program language)
Data structures (Computer science)
CNPQ::CIENCIAS EXATAS E DA TERRA
topic Sistemas de coleta automática de dados
Mineração de dados (Computação)
Armazenamento de dados
Processamento eletrônico de dados
Python (Linguagem de programação de computador)
Estruturas de dados (Computação)
Automatic data collection systems
Data mining
Data Warehousing
Electronic data processing
Python (Computer program language)
Data structures (Computer science)
CNPQ::CIENCIAS EXATAS E DA TERRA
description With the growth of the electronic games industry and the dependence on data for decision making, the work seeks to present a data transformation process until it is significantly safe and ready for analysis or to be acquired by an machine model learning . As an example, let’s use event data from Counter Strike championship matches. This process consists of an web scraping step, where it was necessary to develop an script in Python to standardize the process, and another data transformation step using the Spark processing engine, since the amount of extracted data was considerably large. The result is an feature store, which is a set of data about the statistics of professional players in championships with prizes above 100 thousand dollars.
publishDate 2023
dc.date.none.fl_str_mv 2023-03-14
2024-11-21T20:54:33Z
2024-11-21T20:54:33Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SILVA, Pedro Augusto de Lima e. Processo de desenvolvimento de uma feature store a partir de dados de web scraping. 2022. Trabalho de Conclusão de Curso de Especialização (Ciência de Dados e suas Aplicações) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022.
http://repositorio.utfpr.edu.br/jspui/handle/1/35499
identifier_str_mv SILVA, Pedro Augusto de Lima e. Processo de desenvolvimento de uma feature store a partir de dados de web scraping. 2022. Trabalho de Conclusão de Curso de Especialização (Ciência de Dados e suas Aplicações) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022.
url http://repositorio.utfpr.edu.br/jspui/handle/1/35499
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Ciência de Dados e suas Aplicações
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Curitiba
Brasil
Ciência de Dados e suas Aplicações
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850497922740781056