Data Mining: Classificação supervisionada com árvores de decisão

Detalhes bibliográficos
Autor(a) principal: Lacerda, Carlos Roberto Bastos
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: https://hdl.handle.net/10316/110477
Resumo: Dissertação de Mestrado em Matemática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_0c9608bf33081cd97fd1e82e8fb480f4
oai_identifier_str oai:estudogeral.uc.pt:10316/110477
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Data Mining: Classificação supervisionada com árvores de decisãoData Mining: Supervised Classification with decision treesÁrvores de DecisãoFlorestas AleatóriasAprendizado de MáquinaMineração de DadosCovid-19Decision TreesRandom ForestsMachine LearningData MiningCovid-19Dissertação de Mestrado em Matemática apresentada à Faculdade de Ciências e TecnologiaEsta tese de mestrado introduz os métodos árvores de decisão e florestas aleatórias para resolver o problema de data mining denominado por classificação supervisionada. Consideremos um dataset de pacientes covid-19 (ou objetos) classificados em duas classes consoante a evolução para óbito ou recuperado. Partindo de um conjunto de características (ou atributos) dos pacientes, como a idade e a pré-existência de outras doenças, o objetivo do problema de classificação supervisionada é encontrar uma função (ou classificador) que estabelece uma relação entre atributos dos pacientes e as respetivas classes. A utilidade fundamental de um classificador reside na possibilidade de classificar um novo objeto, por exemplo, prever a evolução de um novo paciente covid-19. O método árvores de decisão distingue-se pela sua interpretabilidade e performance competitiva, particularmente quando utilizado técnicas ensemble floresta aleatória. A tese está organizada da seguinte forma. O primeiro capítulo apresenta o problema de classificação supervisionada, incluindo o modelo de Bayes e métricas de erro, seguindo-se dois capítulos dedicados aos principais fundamentos teóricos dos métodos estatísticos árvores de decisão e floresta aleatória, entre os quais os conceitos de consistência e decomposição viés-variância. O quarto capítulo ilustra o potencial prático dos métodos usando um conjunto de dados públicos, disponibilizados pelo governo mexicano, de pacientes com covid-19. Esta secção inclui procedimentos de pré-processamento, visualização, divisão dos dados em conjuntos de treino, teste e validação, ajuste dos parâmetros e interpretações do modelo. Por fim, terminamos no capítulo cinco com algumas conclusões.This master’s thesis introduces decision trees and random forest methods to solve the data mining problem of supervised classification. Let us consider a dataset of covid-19 patients (or objects)classified into two classes based on whether they died or recovered. From a set of patient characteristics(or attributes), such as age and the pre-existence of other diseases, supervised classification aims at developing a function (or classifier) that establishes a relationship between patient attributes and the respective classes. The primary utility of a classifier is the ability to classify a new object, e.g., predicting the evolution of a new covid-19 patient. The decision tree method is known for its interpretability and competitive performance, particularly when combined with ensemble techniques like random forest.This thesis is organized as follows. The first chapter introduces the supervised classification problem, including the Bayes model and error metrics, followed by two chapters on the theoretical foundations of decision trees and random forests, among which the concepts of consistency and bias-variance decomposition .The fourth chapter illustrates the practical potential of the methods using a public dataset of covid-19 patients, provided by the Mexican government. This section includes procedures of preprocessing, visualization, data division into training, testing, and validation sets, parameter tuning and model interpretations. Finally, we finish in chapter five with some conclusions2023-09-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://hdl.handle.net/10316/110477https://hdl.handle.net/10316/110477TID:203400291porLacerda, Carlos Roberto Bastosinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2023-11-23T23:01:07Zoai:estudogeral.uc.pt:10316/110477Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T06:02:28.250290Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Data Mining: Classificação supervisionada com árvores de decisão
Data Mining: Supervised Classification with decision trees
title Data Mining: Classificação supervisionada com árvores de decisão
spellingShingle Data Mining: Classificação supervisionada com árvores de decisão
Lacerda, Carlos Roberto Bastos
Árvores de Decisão
Florestas Aleatórias
Aprendizado de Máquina
Mineração de Dados
Covid-19
Decision Trees
Random Forests
Machine Learning
Data Mining
Covid-19
title_short Data Mining: Classificação supervisionada com árvores de decisão
title_full Data Mining: Classificação supervisionada com árvores de decisão
title_fullStr Data Mining: Classificação supervisionada com árvores de decisão
title_full_unstemmed Data Mining: Classificação supervisionada com árvores de decisão
title_sort Data Mining: Classificação supervisionada com árvores de decisão
author Lacerda, Carlos Roberto Bastos
author_facet Lacerda, Carlos Roberto Bastos
author_role author
dc.contributor.author.fl_str_mv Lacerda, Carlos Roberto Bastos
dc.subject.por.fl_str_mv Árvores de Decisão
Florestas Aleatórias
Aprendizado de Máquina
Mineração de Dados
Covid-19
Decision Trees
Random Forests
Machine Learning
Data Mining
Covid-19
topic Árvores de Decisão
Florestas Aleatórias
Aprendizado de Máquina
Mineração de Dados
Covid-19
Decision Trees
Random Forests
Machine Learning
Data Mining
Covid-19
description Dissertação de Mestrado em Matemática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2023
dc.date.none.fl_str_mv 2023-09-12
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/10316/110477
https://hdl.handle.net/10316/110477
TID:203400291
url https://hdl.handle.net/10316/110477
identifier_str_mv TID:203400291
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833602556416229376