Fraud detection with algorithms for tabular data

Detalhes bibliográficos
Autor(a) principal: Sá, Pedro Nuno Cazegas Pimenta de
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Texto Completo: https://hdl.handle.net/10316/110585
Resumo: Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia
id RCAP_4d55fa467fa8493c1daf28d0684b132b
oai_identifier_str oai:estudogeral.uc.pt:10316/110585
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Fraud detection with algorithms for tabular dataDeteção de fraude com algoritmos para dados tabularesdeteção de fraudedados tabularesgradient boosting decision treesdeep learningfraud detectiontabular datagradient boosting decision treesdeep learningDissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e TecnologiaA constante inovação no panorama tecnológico mundial motiva as empresas e in-stituições a cimentarem-se no meio digital. Este movimento torna-se evidente naindústria dos pagamentos, dado o recente aumento na popularidade de compras on-line e transações cardless. Apesar de existir um certo apelo à adoção the infrastru-turas digitais e automatizadas para pagamentos, essa adoção disponibiliza, também,novos meios para atividade criminosa. Fraude financeira é uma preocupação fulcralpara instituições financeiras, e as recentes inovações na consolidação dos sistemas deprevenção são rapidamente ofuscadas por esquemas fraudulentos mais inteligentes:a fraude financeira tem registados perdas, a nível mundial, superiores a um bilião dedólares [Bank, 2021], o que representa uma vulnerabilidade de maior importânciapara instituições financeiras.Sistemas manuais para deteção de fraude estão a tornar-se obsoletos por não con-seguirem acompanhar as vagas de criminosos mais inteligentes e o movimento dabig data. Naturalmente, Machine Learning destaca-se como um potencial candidatopara lidar com este problema, pelas suas capacidades de automação e inteligência,nomeadamente, na deteção de padrões a partir de dados. A literatura destaca quetanto métodos à base de árvores, como Deep Learning, são bastante utilizados nadeteção de fraude, apesar da existência de um debate sobre o porquê dos métodosà base de árvores serem consistentemente melhores que Deep Learning em dadostabulares.Nesta tese, investigamos a diferença de desempenho entre algoritmos à base de ár-vores e Deep Learning em dados tabulares, com especial foco na deteção de fraude.Iteramos sobre métodos baseados em árvores, tais como Gradient Boosting DecisionTrees, e algoritmos recentes de Deep Learning para dados tabulares. Exploramospossíveis causas para esta diferença de desempenho através da aplicação de trans-formações sobre dados reais da indústria de pagamentos, de forma a alargar (ouencurtar) a diferença de desempenho. Os resultados sugerem que a diferença dedesempenho terá origem no desacordo entre os pressupostos dos algoritmos de DeepLearning e as propriedades dos dados tabulares: (i) as redes neuronais deturpam ospadrões irregulares presentes em dados tabulares; (ii) em dados tabulares, o targeté geralmente uma função de apenas um pequeno grupo de features. De entre os al-goritmos mais recentes, demonstramos que o TabNet e o FT-Transformer partilhamalgumas semelhanças com métodos à base de árvores que possibilitam a aprendiza-gem the representações melhor alinhadas com as propriedades dos dados tabulares.The massive breakthrough in the world’s technological landscape has encouragedcompanies and businesses to move to the digital medium. This is especially evidentin the payment industry, considering the popularity of online payments and cardlesstransactions has increased over the years. Although there is a certain appeal towardsautomated and digital payment infrastructure, this also provides new ventures forcriminal activity. Financial fraud is a paramount concern for financial institutions,and the innovations in the consolidation of prevention systems are rapidly surpassedby smarter strategies for performing fraud. Financial fraud has registered worldwidelosses exceeding one billion dollars [Bank, 2021] – which represents a major liabilityfor financial entities.Manual systems for detection of fraud are becoming obsolete, as they fail to keepup with smarter criminals and big data. Naturally, Machine Learning stands asa potential candidate for dealing with this problem provided its automating andintelligent capabilities, namely, on the detection of patterns from data. The relevantliterature highlights that both tree-based and Deep Learning approaches are widelyused in fraud detection, despite an emerging debate on why tree-based algorithmsconsistently outperform Deep Learning on tabular data.In this thesis, we study the performance gap between tree-based and Deep Learningalgorithms for tabular data, with a focus on fraud detection. We iterate through tree-based methods, such as Gradient Boosting Decision Trees, and recent Deep Learningalgorithms for tabular data. We explore possible root causes for this gap by applyingseveral transformations to real data from the payments industry so as to widen (orshorten) the gap. Our results suggest that the performance gap may generally stemfrom a disagreement between the prior assumptions of Deep Learning algorithms andthe properties of tabular data: (i) neural networks misrepresent irregular patternsin tabular data; (ii) in tabular data, the target is usually a function of just a smallsubset of features. Amongst the more recent algorithms, we show that TabNet andFT-Transformer share some similarities with tree-based methods that allow them tolearn representations that better align with the properties of tabular data.2023-07-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://hdl.handle.net/10316/110585https://hdl.handle.net/10316/110585TID:203398181engSá, Pedro Nuno Cazegas Pimenta deinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2023-11-23T23:04:51Zoai:estudogeral.uc.pt:10316/110585Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T06:02:34.108087Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Fraud detection with algorithms for tabular data
Deteção de fraude com algoritmos para dados tabulares
title Fraud detection with algorithms for tabular data
spellingShingle Fraud detection with algorithms for tabular data
Sá, Pedro Nuno Cazegas Pimenta de
deteção de fraude
dados tabulares
gradient boosting decision trees
deep learning
fraud detection
tabular data
gradient boosting decision trees
deep learning
title_short Fraud detection with algorithms for tabular data
title_full Fraud detection with algorithms for tabular data
title_fullStr Fraud detection with algorithms for tabular data
title_full_unstemmed Fraud detection with algorithms for tabular data
title_sort Fraud detection with algorithms for tabular data
author Sá, Pedro Nuno Cazegas Pimenta de
author_facet Sá, Pedro Nuno Cazegas Pimenta de
author_role author
dc.contributor.author.fl_str_mv Sá, Pedro Nuno Cazegas Pimenta de
dc.subject.por.fl_str_mv deteção de fraude
dados tabulares
gradient boosting decision trees
deep learning
fraud detection
tabular data
gradient boosting decision trees
deep learning
topic deteção de fraude
dados tabulares
gradient boosting decision trees
deep learning
fraud detection
tabular data
gradient boosting decision trees
deep learning
description Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia
publishDate 2023
dc.date.none.fl_str_mv 2023-07-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/10316/110585
https://hdl.handle.net/10316/110585
TID:203398181
url https://hdl.handle.net/10316/110585
identifier_str_mv TID:203398181
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833602557191127040