Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming

Bibliographic Details
Main Author: Magessi, Inês Marcão Cortes
Publication Date: 2024
Format: Master thesis
Language: eng
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: http://hdl.handle.net/10362/175136
Summary: Dissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics, specialization in Data Science
id RCAP_de789d80fb6d357b6e6f8e6d21b261ed
oai_identifier_str oai:run.unl.pt:10362/175136
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Controlling Functional Complexity for Overfitting Avoidance in Genetic ProgrammingProgramação GenéticaRegressão SimbólicaOverfittingComplexidade FuncionalOptimização Multi-ObjectivoGenetic ProgrammingSymbolic RegressionFunctional ComplexityMulti-Objective OptimizationDomínio/Área Científica::Ciências Naturais::Ciências da Computação e da InformaçãoDissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics, specialization in Data ScienceA Programação Genética (PG) é uma técnica versátil no campo da Computação Evolucionária que oferece soluções para uma ampla variedade de problemas. Este trabalho foca-se numa aplicação comum da PG - a Regressão Simbólica (RS) - que tem como objetivo descobrir funções matemáticas que descrevam as relações entre variáveis de input e output de um dataset. Embora a PG se destaque pela sua capacidade de evoluir expressões diversas sem tamanho ou forma pré-definida, um desafio central é o sobreajuste (ou overfitting, como é normalmente chamado), fenómeno que se verifica quando as funções se ajustam demasiado aos dados de treino, comprometendo a sua capacidade de generalização em novos dados. Apesar das técnicas de regularização tradicionalmente usadas para combate de overfitting estarem amplamente estudadas na literatura, estas são difíceis de aplicar diretamente à PG devido à sua estrutura flexível e ausência de otimização de parâmetros. Posto isto, este estudo propõe uma abordagem inovadora para minimizar o overfitting em PG, que se baseia numa otimização dupla ao longo da evolução: a minimização do erro e a penalização da complexidade funcional das expressões evoluídas, recorrendo a mecanismos de seleção multi-objetivo. Enquanto a minimização do erro é um objetivo comum em PG, a penalização da complexidade funcional é um passo extra que procura evitar a evolução de expressões excessivamente complexas e sobreajustadas. A medida de complexidade funcional utilizada neste estudo aproxima a curvatura de uma função, refletindo a sua tendência para sobreajustar os dados de treino. Resultados experimentais em oito conjuntos de dados de RS demonstram a eficácia das duas variantes do método proposto na redução de overfitting, por comparação com os resultados de referência da PG padrão. O estudo realça a importância de equilibrar a redução de complexidade com a capacidade preditiva nos modelos evoluídos pela PG, de forma a garantir que tanto funções precisas como simples são selecionadas. Além disso, são analisados os impactos de diferentes hiperparâmetros numa das variantes do método proposto, assim como são analisadas várias características das funções evoluídas, como a sua curvatura e tamanho. É também estabelecida, de modo formal, uma correlação entre a complexidade funcional e o overfitting, e os benefícios do método proposto para a interpretabilidade dos modelos e seleção de variáveis e redução de bloat são discutidos.Genetic programming (GP) is a versatile technique within the field of Evolutionary Computation (EC), offering solutions to a wide range of problems. This work focuses on Symbolic Regression (SR), a common application of GP that aims to discover mathematical functions describing the relationships between input and target variables of a given dataset. While GP stands out for evolving diverse functions with no constraints in size or shape, a key challenge is overfitting, where models become too adjusted to the training data, compromising their generalization to new, unseen data. Although traditional regularization techniques are widely studied in the literature, they are challenging to apply directly to GP due to its flexible structure and lack of parameter optimization. Therefore, this work proposes a novel approach to mitigate overfitting in GP, involving a dual optimization process throughout evolution: minimizing error and penalizing the functional complexity of expressions using multiobjective selection mechanisms. While error minimization is a common goal in GP, penalizing functional complexity is an additional step aimed at avoiding overly complex functions. The functional complexity measure used in this study approximates the curvature of an expression, reflecting its tendency to overfit the training data. Experimental results on eight SR datasets demonstrate the effectiveness of two variants of the proposed method in reducing overfitting, as evidenced by a comparison to the baseline results of Standard GP (StdGP). The study explores and emphasizes the importance of balancing complexity reduction with overall predictive accuracy of evolved models, ensuring the selection of both accurate and simple functions. Additionally, the impact of different hyperparameters on the proposed method is analyzed, along with various characteristics of the evolved functions, such as their curvature and size. Finally, a formal correlation between functional complexity and overfitting is established, and the benefits of the proposed method for model interpretability, feature selection and bloat reduction are discussed.Vanneschi, LeonardoRUNMagessi, Inês Marcão Cortes2024-11-13T17:28:57Z2024-10-312024-10-31T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/175136TID:203776704enginfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2025-01-13T01:42:57Zoai:run.unl.pt:10362/175136Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-28T19:14:10.343433Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming
title Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming
spellingShingle Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming
Magessi, Inês Marcão Cortes
Programação Genética
Regressão Simbólica
Overfitting
Complexidade Funcional
Optimização Multi-Objectivo
Genetic Programming
Symbolic Regression
Functional Complexity
Multi-Objective Optimization
Domínio/Área Científica::Ciências Naturais::Ciências da Computação e da Informação
title_short Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming
title_full Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming
title_fullStr Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming
title_full_unstemmed Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming
title_sort Controlling Functional Complexity for Overfitting Avoidance in Genetic Programming
author Magessi, Inês Marcão Cortes
author_facet Magessi, Inês Marcão Cortes
author_role author
dc.contributor.none.fl_str_mv Vanneschi, Leonardo
RUN
dc.contributor.author.fl_str_mv Magessi, Inês Marcão Cortes
dc.subject.por.fl_str_mv Programação Genética
Regressão Simbólica
Overfitting
Complexidade Funcional
Optimização Multi-Objectivo
Genetic Programming
Symbolic Regression
Functional Complexity
Multi-Objective Optimization
Domínio/Área Científica::Ciências Naturais::Ciências da Computação e da Informação
topic Programação Genética
Regressão Simbólica
Overfitting
Complexidade Funcional
Optimização Multi-Objectivo
Genetic Programming
Symbolic Regression
Functional Complexity
Multi-Objective Optimization
Domínio/Área Científica::Ciências Naturais::Ciências da Computação e da Informação
description Dissertation presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics, specialization in Data Science
publishDate 2024
dc.date.none.fl_str_mv 2024-11-13T17:28:57Z
2024-10-31
2024-10-31T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/175136
TID:203776704
url http://hdl.handle.net/10362/175136
identifier_str_mv TID:203776704
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833597961985064960