Data Mining: Classificação supervisionada com árvores de decisão
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
Texto Completo: | https://hdl.handle.net/10316/110477 |
Resumo: | Dissertação de Mestrado em Matemática apresentada à Faculdade de Ciências e Tecnologia |
id |
RCAP_0c9608bf33081cd97fd1e82e8fb480f4 |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/110477 |
network_acronym_str |
RCAP |
network_name_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
repository_id_str |
https://opendoar.ac.uk/repository/7160 |
spelling |
Data Mining: Classificação supervisionada com árvores de decisãoData Mining: Supervised Classification with decision treesÁrvores de DecisãoFlorestas AleatóriasAprendizado de MáquinaMineração de DadosCovid-19Decision TreesRandom ForestsMachine LearningData MiningCovid-19Dissertação de Mestrado em Matemática apresentada à Faculdade de Ciências e TecnologiaEsta tese de mestrado introduz os métodos árvores de decisão e florestas aleatórias para resolver o problema de data mining denominado por classificação supervisionada. Consideremos um dataset de pacientes covid-19 (ou objetos) classificados em duas classes consoante a evolução para óbito ou recuperado. Partindo de um conjunto de características (ou atributos) dos pacientes, como a idade e a pré-existência de outras doenças, o objetivo do problema de classificação supervisionada é encontrar uma função (ou classificador) que estabelece uma relação entre atributos dos pacientes e as respetivas classes. A utilidade fundamental de um classificador reside na possibilidade de classificar um novo objeto, por exemplo, prever a evolução de um novo paciente covid-19. O método árvores de decisão distingue-se pela sua interpretabilidade e performance competitiva, particularmente quando utilizado técnicas ensemble floresta aleatória. A tese está organizada da seguinte forma. O primeiro capítulo apresenta o problema de classificação supervisionada, incluindo o modelo de Bayes e métricas de erro, seguindo-se dois capítulos dedicados aos principais fundamentos teóricos dos métodos estatísticos árvores de decisão e floresta aleatória, entre os quais os conceitos de consistência e decomposição viés-variância. O quarto capítulo ilustra o potencial prático dos métodos usando um conjunto de dados públicos, disponibilizados pelo governo mexicano, de pacientes com covid-19. Esta secção inclui procedimentos de pré-processamento, visualização, divisão dos dados em conjuntos de treino, teste e validação, ajuste dos parâmetros e interpretações do modelo. Por fim, terminamos no capítulo cinco com algumas conclusões.This master’s thesis introduces decision trees and random forest methods to solve the data mining problem of supervised classification. Let us consider a dataset of covid-19 patients (or objects)classified into two classes based on whether they died or recovered. From a set of patient characteristics(or attributes), such as age and the pre-existence of other diseases, supervised classification aims at developing a function (or classifier) that establishes a relationship between patient attributes and the respective classes. The primary utility of a classifier is the ability to classify a new object, e.g., predicting the evolution of a new covid-19 patient. The decision tree method is known for its interpretability and competitive performance, particularly when combined with ensemble techniques like random forest.This thesis is organized as follows. The first chapter introduces the supervised classification problem, including the Bayes model and error metrics, followed by two chapters on the theoretical foundations of decision trees and random forests, among which the concepts of consistency and bias-variance decomposition .The fourth chapter illustrates the practical potential of the methods using a public dataset of covid-19 patients, provided by the Mexican government. This section includes procedures of preprocessing, visualization, data division into training, testing, and validation sets, parameter tuning and model interpretations. Finally, we finish in chapter five with some conclusions2023-09-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://hdl.handle.net/10316/110477https://hdl.handle.net/10316/110477TID:203400291porLacerda, Carlos Roberto Bastosinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2023-11-23T23:01:07Zoai:estudogeral.uc.pt:10316/110477Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T06:02:28.250290Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse |
dc.title.none.fl_str_mv |
Data Mining: Classificação supervisionada com árvores de decisão Data Mining: Supervised Classification with decision trees |
title |
Data Mining: Classificação supervisionada com árvores de decisão |
spellingShingle |
Data Mining: Classificação supervisionada com árvores de decisão Lacerda, Carlos Roberto Bastos Árvores de Decisão Florestas Aleatórias Aprendizado de Máquina Mineração de Dados Covid-19 Decision Trees Random Forests Machine Learning Data Mining Covid-19 |
title_short |
Data Mining: Classificação supervisionada com árvores de decisão |
title_full |
Data Mining: Classificação supervisionada com árvores de decisão |
title_fullStr |
Data Mining: Classificação supervisionada com árvores de decisão |
title_full_unstemmed |
Data Mining: Classificação supervisionada com árvores de decisão |
title_sort |
Data Mining: Classificação supervisionada com árvores de decisão |
author |
Lacerda, Carlos Roberto Bastos |
author_facet |
Lacerda, Carlos Roberto Bastos |
author_role |
author |
dc.contributor.author.fl_str_mv |
Lacerda, Carlos Roberto Bastos |
dc.subject.por.fl_str_mv |
Árvores de Decisão Florestas Aleatórias Aprendizado de Máquina Mineração de Dados Covid-19 Decision Trees Random Forests Machine Learning Data Mining Covid-19 |
topic |
Árvores de Decisão Florestas Aleatórias Aprendizado de Máquina Mineração de Dados Covid-19 Decision Trees Random Forests Machine Learning Data Mining Covid-19 |
description |
Dissertação de Mestrado em Matemática apresentada à Faculdade de Ciências e Tecnologia |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-09-12 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/10316/110477 https://hdl.handle.net/10316/110477 TID:203400291 |
url |
https://hdl.handle.net/10316/110477 |
identifier_str_mv |
TID:203400291 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP |
instname_str |
FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
collection |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
repository.name.fl_str_mv |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
repository.mail.fl_str_mv |
info@rcaap.pt |
_version_ |
1833602556416229376 |