Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs
Ano de defesa: | 2018 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | , , |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Tecnológica Federal do Paraná
Cornelio Procopio |
Programa de Pós-Graduação: |
Programa de Pós-Graduação em Bioinformática
|
Departamento: |
Não Informado pela instituição
|
País: |
Brasil
|
Palavras-chave em Português: | |
Área do conhecimento CNPq: | |
Link de acesso: | http://repositorio.utfpr.edu.br/jspui/handle/1/3368 |
Resumo: | A partir do surgimento dos Sequenciadores de Nova Geração (NGS), um grande volume de dados de DNAs e RNAs passaram a ser sequenciados rapidamente a custos relativamente menores. Os NGS têm a capacidade de produção de milhares de sequências simultaneamente, produzindo um volume massivo de dados a serem analisados. Nesse sentido, as ferramentas computacionais se tornam essenciais não só para a extração, mas também para a seleção e análise desses dados. Esta pesquisa apresenta um modelo capaz de extrair características para a classificação de RNAs codificantes e não-codificantes. A ferramenta BiologicAl Sequences NETwork (BASiNET), disponível em: <https://cran.rproject. org/package=BASiNET>, implementa o método desenvolvido, o qual mapeia sequências de RNAs por meio de redes complexas, pois estas são eficientes para representar sistemas reais, nos quais estão inseridos os sistemas biológicos. A fim de representar as sequências selecionadas, a configuração da rede complexa é feita a partir dos parâmetros do tamanho do passo (conexões entre os nucleotídeos) e do tamanho da palavra (quantidade de nucleotídeos por vértice); na sequência, as arestas menos densas são removidas para a geração de sub-redes que são resultantes da eliminação crescente de 1 até n arestas da rede. Posteriormente, cada sub-rede é submetida às métricas de: proximidade, grau, grau máximo, grau mínimo, intermediação, coeficiente de clustering, caminho mínimo médio, desvio padrão e motifs. A extração de métricas de cada uma dessas sub-redes compõe o vetor de características, os valores desse vetor são inseridos no algoritmo de classificação supervisionada que, por meio da detecção de padrões, realiza a distinção das sequências com validação cruzada de 10-fold. A ferramenta BASiNET é aplicada de forma experimental a dois conjuntos de dados. Os resultados obtidos foram comparados com outras ferramentas: Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) e Coding Potential Calculator (CPC2). A comparação evidencia a viabilidade da ferramenta BASiNET, uma vez que esta apresentou resultados médios superiores de acurácia na identificação de RNAs codificantes e RNAs não-codificantes, nos dois conjuntos de dados experimentais. Os índices médios obtidos entre os dois experimentos foram superiores na identificação de RNAs codificantes em 8,6% com relação à CNCI; 11,4% com relação à PLEK e 4,4% com relação à CPC2. A propósito da identificação dos RNAs não-codificantes, a média geral obtida foi superior em 2,2%, 2,6%, 1,5% com relação à CNCI, PLEK e CPC2, respectivamente. A melhoria dos índices de acurácia reforça a estabilidade e a homogeneidade do método. Por fim, convém destacar que o método implementado pela BASiNET usa ferramentas de código aberto e pode ser executado em um computador com configurações básicas, sendo extensível à classificação de outras sequências como as de DNAs e aminoácidos. |