Classificação de elementos transponíveis por redes neurais convolucionais

Detalhes bibliográficos
Ano de defesa: 2020
Autor(a) principal: Cruz, Murilo Horacio Pereira da lattes
Orientador(a): Bugatti, Pedro Henrique lattes
Banca de defesa: Fujita, André lattes, Kashiwabara, Andre Yoshiaki lattes, Lopes, Fabricio Martins lattes, Bugatti, Pedro Henrique lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Programa de Pós-Graduação: Programa de Pós-Graduação em Bioinformática
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/5309
Resumo: Elementos transponíveis são o tipo de sequência mais presente nos genomas eucarióticos. Estes são capazes de se transpor e produzir múltiplas cópias ao longo do genoma hospedeiro. Devido a estas ações, estas sequências produzem uma variedade de efeitos nos organismos, como por exemplo podem atuar na regulação da expressão gênica. Existem diversos tipos destes elementos, os quais são classificados de maneira hierárquica em classes, ordens e superfamílias. Poucos métodos da literatura abordam a classificação nos níveis mais profundos da hierarquia, como o nível de superfamílias. Além disso, a maioria dos métodos da literatura utilizam características manualmente definidas como: k-mers; presença de ORF; presença de domínios proteicos; e busca por similaridade. Tais características podem ser ineficientes para atingir a generalização dos métodos e computacionalmente custosas. Neste trabalho é apresentada uma abordagem, denominada Transposabel Element Representation Learner (TERL), a qual é capaz de representar sequências 1D em uma imagem 2D da sequência. A abordagem proposta é genérica e pode ser utilizada para classificar qualquer tipo de sequência biológica em qualquer nível do sistema de classificação da mesma, além de ser flexível quanto ao tipo de arquitetura que pode ser utilizada. No presente trabalho sete bases de dados da literatura foram utilizadas para criar nove conjuntos de treinamento e teste. Estes conjuntos foram utilizados em uma série de 21 experimentos conduzidos para avaliar o desempenho da abordagem proposta e dos métodos TEclass e PASTEC da literatura. O TERL foi capaz de obter acurácia e F1-score de 0,95 e 0,71 respectivamente na classificação de 11 superfamílias e acurácia e especificidade de 0,89 e 0,93 respectivamente na classificação a nível de ordem de um conjunto com sequências de diversos organismos e bases de dados. Estes resultados superam os obtidos pelo TEclass e PASTEC. Outra grande vantagem apresentada pela abordagem proposta diz respeito ao tempo de classificação das sequências, sendo que o TERL é em média 76 vezes mais eficiente que o TEclass e quatro ordens de grandeza mais eficiente que o PASTEC.