Anotação e classificação de elementos transponíveis com o uso de deep learning

Detalhes bibliográficos
Ano de defesa: 2023
Autor(a) principal: Gomes, Tiago Minuzzi Freire da Fontoura
Orientador(a): Loreto, Élgion Lúcio da Silva
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Não Informado pela instituição
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Palavras-chave em Inglês:
Link de acesso: http://hdl.handle.net/10183/276145
Resumo: Os elementos transponíveis (TEs) são sequências de DNA capazes de se transporem dentro de um genoma hospedeiro e desempenham vários papéis na regulação dos genes, no envelhecimento, no desenvolvimento de certos tipos de câncer, na especiação e no desenvolvimento do sistema imunológico, entre outros. A identificação e classificação dos TEs nos genomas constituem um desafio devido à sua natureza repetitiva e diversificada. Embora se aplique várias técnicas para a anotação de TEs, o ressurgimento de deep learning (DL) trouxe novas possibilidades dentro das ciências ômicas com esta finalidade. As redes neurais convolucionais (CNN) têm sido aplicadas com sucesso em vários domínios, incluindo a classificação de imagens, o processamento de linguagem natural e na genômica. No entanto, faltam ferramentas baseadas em DL que possam efetuar a identificação e classificação de TEs de ponta a ponta. Nesta tese, apresentamos o HamleTE, uma ferramenta baseada em DL que utiliza um workflow para anotar e classificar TEs em genomas. HamleTE oferece os modos de anotação e classificação, proporcionando flexibilidade para diferentes casos de uso. A ferramenta emprega CNNs para extração de características, seguida por camadas totalmente conectadas para aprender as associações entre dados e rótulos para categorização precisa. Ao contrário das ferramentas existentes, HamleTE integra etapas de extração de sequências repetitivas e de remoção de redundância, assegurando uma anotação TE robusta. Para avaliar o desempenho do HamleTE, comparamo-lo com outros programas de classificação de TE. Os resultados demonstraram que, em relação aos outros programas, HamleTE alcançou um desempenho comparável ou superior em termos de identificação correta de TEs, precisão, especificidade, acurácia, sensibilidade e F1-score. Além disso, o modo de anotação do HamleTE gerou bibliotecas de TEs emprega um workflow hierárquico com vários modelos de classificação. Esta abordagem reduz a complexidade e a variação em cada etapa, atenuando as dificuldades associadas à aprendizagem e à categorização. Além disso, o HamleTE utiliza embedding vectors para representar sequências de DNA, capturando as relações contextuais e a semântica da informação genética. Esta abordagem melhora a capacidade do modelo para extrair características e aumenta a precisão da classificação. Em conclusão, HamleTE preenche a lacuna nas ferramentas de anotação e classificação de TE baseadas em DL. Ele fornece um workflow abrangente e eficiente para a análise de TEs, fornecendo resultados precisos e possibilitando opções de refinamento dos resultados. Ao tirar partido do poder da DL, HamleTE permite aos pesquisadores explorar a paisagem repetitiva e diversificada dos TEs nos genomas eucarióticos, facilitando uma exploração dos seus papéis funcionais e evolutivos.