Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de Genes

Bibliographic Details
Main Author: Fernandes, Carlos André Ferreira Santos
Publication Date: 2017
Format: Master thesis
Language: por
Source: Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
Download full: https://hdl.handle.net/10316/83219
Summary: Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
id RCAP_b64eeace9b4362430f8dd21d3cac5e30
oai_identifier_str oai:estudogeral.uc.pt:10316/83219
network_acronym_str RCAP
network_name_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository_id_str https://opendoar.ac.uk/repository/7160
spelling Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de GenesFilter-Wrapper Feature Selection Algorithm for Gene SelectionSeleção de genes de MicroarraysImportância de genesSeleção de featuresMicroarray gene selectionGene importanceFeature selectionDissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e TecnologiaA sequenciação de genes através de microarrays de Ácido desoxirribonucleico (ADN) permite conhecer a ordem de milhares de genes. Esta técnica enquadra-se num grupo de técnicas de sequenciação de alta eficiência que chegam a gerar dados na ordem dos Terabytes (Tb). Neste contexto justifica-se a importância da aplicação de técnicas de seleção de genes e avaliação da sua importância, que permitam aos investigadores Bioinformáticos focarem-se nos genes com mais influência na existência de doenças ou anomalias.Estas técnicas tentam reconhecer padrões que revelem a importância de cada gene na presença de doenças ou condições, conseguindo um duplo efeito de selecionar os mais importantes ou eliminar os menos importantes, e consequentemente diminuindo a dimensionalidade dos dados. Estes dois efeitos revelam-se importantes, pois, os dados selecionados levam a melhorias no tempo de treino de modelos preditivos e na exatidão de predição, devido à exclusão de dados redundantes.No entanto, a seleção de genes e a avaliação da sua importância revelam ser um problema do ponto de vista Matemático, pois, o número de variáveis é muito maior do que o número de amostras, o que se torna num problema com muitas soluções possíveis.Na literatura, existem vários algoritmos propostos para a resolução do problema baseando-se em abordagens estatísticas ou em aprendizagem máquina, sendo estas abordagens designadas como sendo do tipo filtro (filter) ou do tipo embrulho (wrapper), respetivamente.Este trabalho propõe uma abordagem conjunta, que explora ambas as técnicas, usando a estatística da informação mútua e vários algoritmos de aprendizagem máquina, como o Naive Bayes, Máquinas de Vetores de Suporte (Support Vector Machines), árvores de classificação (Classification Trees) e k-Vizinhos-Mais-Próximos (k-Nearest-Neighbor).Para avaliar a importância do método proposto, este é aplicado com técnicas de reamostragem e os genes são ordenados por ordem de seleção. Os dados utilizados são oriundos de bases de dados públicas, e o algoritmo proposto é comparado com algoritmos existentes no estado da arte.The DNA microarray for gene sequencing allows the screening of thousands of genes simultaneously, and with the advent of the next generation sequencing (NGS) technology, the number of genes available for analysis are much larger than before, where in NGS the generated data can get into the order of terabytes (Tb). In this context, the gene selection and gene importance evaluation are important tools, since they allow Bioinformatic researchers to focus on promising gene candidates that actively contribute to some disease or anomaly. These techniques try to recognize patterns that reveal the importance of each gene in the presence of diseases or conditions, achieving a double effect of selecting the most important ones or eliminating the less important ones, which on the other hand decreases the dimensionality of the data. These two effects are important because the selected data leads to less time spent on training predictive models and a more accurate prediction due to the exclusion of redundant data.However, the gene selection and gene importance evaluation are problematic from the mathematical point of view, since the number of gene/features is much larger than the number of samples/users, making it a problem with many available solutions. In the literature, there are many available algorithms proposed to solve the problem of gene selection and gene importance evaluation, where some of then are based on statistical methods, and other are based on machine learning approaches, and these two approches are also called as filter (statistical approaches) and wrapper approaches (machine learning approaches).This work proposes a hybrid approach, which explores both types of techniques, the filter and wrapper, using the mutual information statistics and several machine learning algorithms, such as the Naive Bayes, Support Vector Machines, Classification Trees and k-Nearest-Neighbor classifiers. To assess the importance of each feature, the proposed method is going to be applied in several boostraped version of data and the genes are going to be ranked according to their frequency of being selected. The proposed approach is going to be applied in public benchmark datasets and compared to current state of art algorithms.2017-09-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://hdl.handle.net/10316/83219https://hdl.handle.net/10316/83219TID:202121496porFernandes, Carlos André Ferreira Santosinfo:eu-repo/semantics/openAccessreponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiainstacron:RCAAP2020-01-28T10:20:00Zoai:estudogeral.uc.pt:10316/83219Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireinfo@rcaap.ptopendoar:https://opendoar.ac.uk/repository/71602025-05-29T05:29:40.667796Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologiafalse
dc.title.none.fl_str_mv Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de Genes
Filter-Wrapper Feature Selection Algorithm for Gene Selection
title Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de Genes
spellingShingle Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de Genes
Fernandes, Carlos André Ferreira Santos
Seleção de genes de Microarrays
Importância de genes
Seleção de features
Microarray gene selection
Gene importance
Feature selection
title_short Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de Genes
title_full Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de Genes
title_fullStr Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de Genes
title_full_unstemmed Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de Genes
title_sort Algoritmo do Tipo Filter-Wrapper de Seleção de Features para Utilização na Seleção de Genes
author Fernandes, Carlos André Ferreira Santos
author_facet Fernandes, Carlos André Ferreira Santos
author_role author
dc.contributor.author.fl_str_mv Fernandes, Carlos André Ferreira Santos
dc.subject.por.fl_str_mv Seleção de genes de Microarrays
Importância de genes
Seleção de features
Microarray gene selection
Gene importance
Feature selection
topic Seleção de genes de Microarrays
Importância de genes
Seleção de features
Microarray gene selection
Gene importance
Feature selection
description Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
publishDate 2017
dc.date.none.fl_str_mv 2017-09-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/10316/83219
https://hdl.handle.net/10316/83219
TID:202121496
url https://hdl.handle.net/10316/83219
identifier_str_mv TID:202121496
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
instname:FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron:RCAAP
instname_str FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
instacron_str RCAAP
institution RCAAP
reponame_str Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
collection Repositórios Científicos de Acesso Aberto de Portugal (RCAAP)
repository.name.fl_str_mv Repositórios Científicos de Acesso Aberto de Portugal (RCAAP) - FCCN, serviços digitais da FCT – Fundação para a Ciência e a Tecnologia
repository.mail.fl_str_mv info@rcaap.pt
_version_ 1833602373130387456