Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming
| Main Author: | |
|---|---|
| Publication Date: | 2024 |
| Format: | Master thesis |
| Language: | eng |
| Source: | Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| Download full: | http://hdl.handle.net/10362/175136 |
Summary: | Dissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics, specialization in Data Science |
| id |
RCAP_de789d80fb6d357b6e6f8e6d21b261ed |
|---|---|
| oai_identifier_str |
oai:run.unl.pt:10362/175136 |
| network_acronym_str |
RCAP |
| network_name_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| repository_id_str |
https://opendoar.ac.uk/repository/7160 |
| spelling |
Controlling Functional Complexity for Overfitting Avoidance in Genetic ProgrammingProgramação GenéticaRegressão SimbólicaOverfittingComplexidade FuncionalOptimização Multi-ObjectivoGenetic ProgrammingSymbolic RegressionFunctional ComplexityMulti-Objective OptimizationDomínio/Área Científica::Ciências Naturais::Ciências da Computação e da InformaçãoDissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics, specialization in Data ScienceA Programação Genética (PG) é uma técnica versátil no campo da Computação Evolucionária que oferece soluções para uma ampla variedade de problemas. Este trabalho foca-se numa aplicação comum da PG - a Regressão Simbólica (RS) - que tem como objetivo descobrir funções matemáticas que descrevam as relações entre variáveis de input e output de um dataset. Embora a PG se destaque pela sua capacidade de evoluir expressões diversas sem tamanho ou forma pré-definida, um desafio central é o sobreajuste (ou overfitting, como é normalmente chamado), fenómeno que se verifica quando as funções se ajustam demasiado aos dados de treino, comprometendo a sua capacidade de generalização em novos dados. Apesar das técnicas de regularização tradicionalmente usadas para combate de overfitting estarem amplamente estudadas na literatura, estas são difíceis de aplicar diretamente à PG devido à sua estrutura flexível e ausência de otimização de parâmetros. Posto isto, este estudo propõe uma abordagem inovadora para minimizar o overfitting em PG, que se baseia numa otimização dupla ao longo da evolução: a minimização do erro e a penalização da complexidade funcional das expressões evoluídas, recorrendo a mecanismos de seleção multi-objetivo. Enquanto a minimização do erro é um objetivo comum em PG, a penalização da complexidade funcional é um passo extra que procura evitar a evolução de expressões excessivamente complexas e sobreajustadas. A medida de complexidade funcional utilizada neste estudo aproxima a curvatura de uma função, refletindo a sua tendência para sobreajustar os dados de treino. Resultados experimentais em oito conjuntos de dados de RS demonstram a eficácia das duas variantes do método proposto na redução de overfitting, por comparação com os resultados de referência da PG padrão. O estudo realça a importância de equilibrar a redução de complexidade com a capacidade preditiva nos modelos evoluídos pela PG, de forma a garantir que tanto funções precisas como simples são selecionadas. Além disso, são analisados os impactos de diferentes hiperparâmetros numa das variantes do método proposto, assim como são analisadas várias características das funções evoluídas, como a sua curvatura e tamanho. É também estabelecida, de modo formal, uma correlação entre a complexidade funcional e o overfitting, e os benefícios do método proposto para a interpretabilidade dos modelos e seleção de variáveis e redução de bloat são discutidos.Genetic programming (GP) is a versatile technique within the field of Evolutionary Computation (EC), offering solutions to a wide range of problems. This work focuses on Symbolic Regression (SR), a common application of GP that aims to discover mathematical functions describing the relationships between input and target variables of a given dataset. While GP stands out for evolving diverse functions with no constraints in size or shape, a key challenge is overfitting, where models become too adjusted to the training data, compromising their generalization to new, unseen data. Although traditional regularization techniques are widely studied in the literature, they are challenging to apply directly to GP due to its flexible structure and lack of parameter optimization. Therefore, this work proposes a novel approach to mitigate overfitting in GP, involving a dual optimization process throughout evolution: minimizing error and penalizing the functional complexity of expressions using multiobjective selection mechanisms. While error minimization is a common goal in GP, penalizing functional complexity is an additional step aimed at avoiding overly complex functions. The functional complexity measure used in this study approximates the curvature of an expression, reflecting its tendency to overfit the training data. Experimental results on eight SR datasets demonstrate the effectiveness of two variants of the proposed method in reducing overfitting, as evidenced by a comparison to the baseline results of Standard GP (StdGP). The study explores and emphasizes the importance of balancing complexity reduction with overall predictive accuracy of evolved models, ensuring the selection of both accurate and simple functions. Additionally, the impact of different hyperparameters on the proposed method is analyzed, along with various characteristics of the evolved functions, such as their curvature and size. Finally, a formal correlation between functional complexity and overfitting is established, and the benefits of the proposed method for model interpretability, feature selection and bloat reduction are discussed.Vanneschi, LeonardoRUNMagessi, Inês Marcão Cortes2024-11-13T17:28:57Z2024-10-312024-10-31T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/175136TID:203776704enginfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-01-13T01:42:57Zoai:run.unl.pt:10362/175136Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T19:14:10.343433Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse |
| dc.title.none.fl_str_mv |
Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming |
| title |
Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming |
| spellingShingle |
Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming Magessi, Inês Marcão Cortes Programação Genética Regressão Simbólica Overfitting Complexidade Funcional Optimização Multi-Objectivo Genetic Programming Symbolic Regression Functional Complexity Multi-Objective Optimization Domínio/Área Científica::Ciências Naturais::Ciências da Computação e da Informação |
| title_short |
Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming |
| title_full |
Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming |
| title_fullStr |
Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming |
| title_full_unstemmed |
Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming |
| title_sort |
Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming |
| author |
Magessi, Inês Marcão Cortes |
| author_facet |
Magessi, Inês Marcão Cortes |
| author_role |
author |
| dc.contributor.none.fl_str_mv |
Vanneschi, Leonardo RUN |
| dc.contributor.author.fl_str_mv |
Magessi, Inês Marcão Cortes |
| dc.subject.por.fl_str_mv |
Programação Genética Regressão Simbólica Overfitting Complexidade Funcional Optimização Multi-Objectivo Genetic Programming Symbolic Regression Functional Complexity Multi-Objective Optimization Domínio/Área Científica::Ciências Naturais::Ciências da Computação e da Informação |
| topic |
Programação Genética Regressão Simbólica Overfitting Complexidade Funcional Optimização Multi-Objectivo Genetic Programming Symbolic Regression Functional Complexity Multi-Objective Optimization Domínio/Área Científica::Ciências Naturais::Ciências da Computação e da Informação |
| description |
Dissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics, specialization in Data Science |
| publishDate |
2024 |
| dc.date.none.fl_str_mv |
2024-11-13T17:28:57Z 2024-10-31 2024-10-31T00:00:00Z |
| dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
| dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
| format |
masterThesis |
| status_str |
publishedVersion |
| dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10362/175136 TID:203776704 |
| url |
http://hdl.handle.net/10362/175136 |
| identifier_str_mv |
TID:203776704 |
| dc.language.iso.fl_str_mv |
eng |
| language |
eng |
| dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
| eu_rights_str_mv |
openAccess |
| dc.format.none.fl_str_mv |
application/pdf |
| dc.source.none.fl_str_mv |
reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia instacron:RCAAP |
| instname_str |
FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
| instacron_str |
RCAAP |
| institution |
RCAAP |
| reponame_str |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| collection |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) |
| repository.name.fl_str_mv |
Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia |
| repository.mail.fl_str_mv |
info@rcaap.pt |
| _version_ |
1833597961985064960 |