Processo de desenvolvimento de uma feature store a partir de dados de web scraping
| Main Author: | |
|---|---|
| Publication Date: | 2023 |
| Format: | Bachelor thesis |
| Language: | por |
| Source: | Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| Download full: | http://repositorio.utfpr.edu.br/jspui/handle/1/35499 |
Summary: | With the growth of the electronic games industry and the dependence on data for decision making, the work seeks to present a data transformation process until it is significantly safe and ready for analysis or to be acquired by an machine model learning . As an example, let’s use event data from Counter Strike championship matches. This process consists of an web scraping step, where it was necessary to develop an script in Python to standardize the process, and another data transformation step using the Spark processing engine, since the amount of extracted data was considerably large. The result is an feature store, which is a set of data about the statistics of professional players in championships with prizes above 100 thousand dollars. |
| id |
UTFPR-12_d660e53cf69cd3698d2ccfc4425dd3d9 |
|---|---|
| oai_identifier_str |
oai:repositorio.utfpr.edu.br:1/35499 |
| network_acronym_str |
UTFPR-12 |
| network_name_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository_id_str |
|
| spelling |
Processo de desenvolvimento de uma feature store a partir de dados de web scrapingFeature store development processSistemas de coleta automática de dadosMineração de dados (Computação)Armazenamento de dadosProcessamento eletrônico de dadosPython (Linguagem de programação de computador)Estruturas de dados (Computação)Automatic data collection systemsData miningData WarehousingElectronic data processingPython (Computer program language)Data structures (Computer science)CNPQ::CIENCIAS EXATAS E DA TERRAWith the growth of the electronic games industry and the dependence on data for decision making, the work seeks to present a data transformation process until it is significantly safe and ready for analysis or to be acquired by an machine model learning . As an example, let’s use event data from Counter Strike championship matches. This process consists of an web scraping step, where it was necessary to develop an script in Python to standardize the process, and another data transformation step using the Spark processing engine, since the amount of extracted data was considerably large. The result is an feature store, which is a set of data about the statistics of professional players in championships with prizes above 100 thousand dollars.Com o crescimento da indústria de jogos eletrônicos e a dependência de dados para as tomadas de decisões, o trabalho busca apresentar um processo transformação dos dados até estar significativamente estruturado e pronto para a análise ou para ser consumido por um modelo de machine learning. Como exemplo, vamos utilizar dados de eventos de partidas de campeonatos de Counter Strike. Esse processo é composto por uma etapa de web scraping, onde foi necessário desenvolver um script em Python para padronizar o processo, e outra etapa de transformação dos dados utilizando o motor de processamento Spark, uma vez que a quantidade de dados extraídos foi consideravelmente grande. O resultado é uma feature store, onde é um conjunto de dados sobre as estatísticas dos jogadores profissionais em campeonatos com premiações acima de 100 mil dólares.Universidade Tecnológica Federal do ParanáCuritibaBrasilCiência de Dados e suas AplicaçõesUTFPRGritti, Marcos CesarBerardi, Rita Cristina GalarragaGritti, Marcos CesarBerardi, Rita Cristina GalarragaRosa, Marcelo de OliveiraSilva, Pedro Augutos de Lima e2024-11-21T20:54:33Z2024-11-21T20:54:33Z2023-03-14info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfSILVA, Pedro Augusto de Lima e. Processo de desenvolvimento de uma feature store a partir de dados de web scraping. 2022. Trabalho de Conclusão de Curso de Especialização (Ciência de Dados e suas Aplicações) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022.http://repositorio.utfpr.edu.br/jspui/handle/1/35499porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2024-11-22T06:08:33Zoai:repositorio.utfpr.edu.br:1/35499Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2024-11-22T06:08:33Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false |
| dc.title.none.fl_str_mv |
Processo de desenvolvimento de uma feature store a partir de dados de web scraping Feature store development process |
| title |
Processo de desenvolvimento de uma feature store a partir de dados de web scraping |
| spellingShingle |
Processo de desenvolvimento de uma feature store a partir de dados de web scraping Silva, Pedro Augutos de Lima e Sistemas de coleta automática de dados Mineração de dados (Computação) Armazenamento de dados Processamento eletrônico de dados Python (Linguagem de programação de computador) Estruturas de dados (Computação) Automatic data collection systems Data mining Data Warehousing Electronic data processing Python (Computer program language) Data structures (Computer science) CNPQ::CIENCIAS EXATAS E DA TERRA |
| title_short |
Processo de desenvolvimento de uma feature store a partir de dados de web scraping |
| title_full |
Processo de desenvolvimento de uma feature store a partir de dados de web scraping |
| title_fullStr |
Processo de desenvolvimento de uma feature store a partir de dados de web scraping |
| title_full_unstemmed |
Processo de desenvolvimento de uma feature store a partir de dados de web scraping |
| title_sort |
Processo de desenvolvimento de uma feature store a partir de dados de web scraping |
| author |
Silva, Pedro Augutos de Lima e |
| author_facet |
Silva, Pedro Augutos de Lima e |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Gritti, Marcos Cesar Berardi, Rita Cristina Galarraga Gritti, Marcos Cesar Berardi, Rita Cristina Galarraga Rosa, Marcelo de Oliveira |
| dc.contributor.author.fl_str_mv |
Silva, Pedro Augutos de Lima e |
| dc.subject.por.fl_str_mv |
Sistemas de coleta automática de dados Mineração de dados (Computação) Armazenamento de dados Processamento eletrônico de dados Python (Linguagem de programação de computador) Estruturas de dados (Computação) Automatic data collection systems Data mining Data Warehousing Electronic data processing Python (Computer program language) Data structures (Computer science) CNPQ::CIENCIAS EXATAS E DA TERRA |
| topic |
Sistemas de coleta automática de dados Mineração de dados (Computação) Armazenamento de dados Processamento eletrônico de dados Python (Linguagem de programação de computador) Estruturas de dados (Computação) Automatic data collection systems Data mining Data Warehousing Electronic data processing Python (Computer program language) Data structures (Computer science) CNPQ::CIENCIAS EXATAS E DA TERRA |
| description |
With the growth of the electronic games industry and the dependence on data for decision making, the work seeks to present a data transformation process until it is significantly safe and ready for analysis or to be acquired by an machine model learning . As an example, let’s use event data from Counter Strike championship matches. This process consists of an web scraping step, where it was necessary to develop an script in Python to standardize the process, and another data transformation step using the Spark processing engine, since the amount of extracted data was considerably large. The result is an feature store, which is a set of data about the statistics of professional players in championships with prizes above 100 thousand dollars. |
| publishDate |
2023 |
| dc.date.none.fl_str_mv |
2023-03-14 2024-11-21T20:54:33Z 2024-11-21T20:54:33Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
| format |
bachelorThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
SILVA, Pedro Augusto de Lima e. Processo de desenvolvimento de uma feature store a partir de dados de web scraping. 2022. Trabalho de Conclusão de Curso de Especialização (Ciência de Dados e suas Aplicações) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022. http://repositorio.utfpr.edu.br/jspui/handle/1/35499 |
| identifier_str_mv |
SILVA, Pedro Augusto de Lima e. Processo de desenvolvimento de uma feature store a partir de dados de web scraping. 2022. Trabalho de Conclusão de Curso de Especialização (Ciência de Dados e suas Aplicações) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022. |
| url |
http://repositorio.utfpr.edu.br/jspui/handle/1/35499 |
| dc.language.iso.fl_str_mv |
por |
| language |
por |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Curitiba Brasil Ciência de Dados e suas Aplicações UTFPR |
| publisher.none.fl_str_mv |
Universidade Tecnológica Federal do Paraná Curitiba Brasil Ciência de Dados e suas Aplicações UTFPR |
| dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) instname:Universidade Tecnológica Federal do Paraná (UTFPR) instacron:UTFPR |
| instname_str |
Universidade Tecnológica Federal do Paraná (UTFPR) |
| instacron_str |
UTFPR |
| institution |
UTFPR |
| reponame_str |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| collection |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) |
| repository.name.fl_str_mv |
Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR) |
| repository.mail.fl_str_mv |
riut@utfpr.edu.br || sibi@utfpr.edu.br |
| _version_ |
1850497922740781056 |