Feature extraction and selection analysis in biological sequence: a case study with metaheuristics and mathematical models
Ano de defesa: | 2020 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Cornelio Procopio |
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Bioinformática
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/5301 |
Resumo: | O número de sequências biológicas disponíveis aumentou em grandes quantidades nos últimos anos, devido a vários projetos de sequenciamento genômico, criando um alto volume de dados. Consequentemente, novos métodos computacionais são necessários para a análise e extração de informações a partir dessas sequências. Métodos de aprendizado de máquina têm apresentado ampla aplicabilidade em biologia computacional e bioinformática. A aplicação desses métodos tem ajudado a extrair informações relevantes de vários conjuntos de dados biológicos. No entanto, ainda existem vários problemas desafiadores que motivam novas propostas de algoritmos e pipelines. Portanto, este trabalho propõe um pipeline genérico de aprendizado de máquina para análise de sequência biológica, seguindo duas etapas principais: (1) extração e (2) seleção de características. Essencialmente, concentramos nosso trabalho no estudo de técnicas de redução de dimensionalidade e extração de recursos, usando metaheurísticas e modelos matemáticos. Como estudo de caso, analisamos sequências de RNAs longos não codificantes. Além disso, dividimos esta dissertação em duas partes: Teste Experimental I (seleção de características) e Teste Experimental II (extração de características). Os resultados experimentais indicam quatro contribuições principais: (1) Um pipeline com 5 metaheurísticas diferentes, usando um esquema de votação e rodadas de execução, ao problema de seleção de características em sequências biológicas; (2) A eficiência metaheurística, proporcionando desempenho de classificação competitiva; (3) Um pipeline de extração de recursos usando 9 modelos matemáticos e (4) sua generalização e robustez para classificação de sequências biológicas distintas. |