Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs

Detalhes bibliográficos
Autor(a) principal: Katahira, Isaque
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Texto Completo: http://repositorio.utfpr.edu.br/jspui/handle/1/3368
Resumo: Due to the emergence of Next Generation Sequencers (NGS), a large volume of DNAs and RNAs has been sequenced quickly at relatively lower costs. NGS has a output capacity of several thousands of sequences simultaneously, producing a massive volume of data to be analyzed. In this sense, computational tools become essential not only for an extraction, but also for the data selection and analysis. This research presents a model capable of extracting features for classification of coding and non-coding RNAs. The BiologicAl Sequences NETwork (BASiNET) is available at url https : //cran.r – project.org/package = BASiNET, implements the developed method, which convert RNAs sequences through complex networks, since these are e_cient to represent real systems, as is the case with biological systems. In order to represent the selected sequences, the configuration of the complex network is from the step size parameter, that represents the connections between the nucleotides, and also the word size parameter, that represents the quantity of nucleotides by vertex; afterwards the least dense edges are removed for subnetwork generation resulting from the increasing elimination of 1 to n edges from the network. Subsequently, each subnetwork is submitted to the measures of: proximity, degree, maximum degree, minimum degree, intermediation, clustering coefficient, mean minimum path, standard deviation and motifs. The extraction of measures from each of these subnetworks makes up the feature vector, the vector values are inserted in the supervised classification algorithm that, through the detection of patterns, performs the distinction of sequences with 10-fold cross validation. The BASiNET tool is applied to two data sets. The obtained results were compared with other tools: Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) and Coding Potential Calculator (CPC2). The comparison of the BASiNET performance indicates, since it higher average accuracy results in the identification of coding RNAs and non-coding RNAs in the two experimental data sets. The average indices obtained from the two experiments were higher in the identification of coding RNAs by 8,6 % with respect to the CNCI; 11,4 % with respect to PLEK and 4,4 % with respect to CPC2. Regarding the identification of the non-coding RNAs, the overall average obtained was 2,2 %, 2,6 %, 1,5 % higher with respect to CNCI, PLEK and CPC2, respectively. The improvement of the accuracy indices reinforces the stability and the homogeneity of the method. Finally, it should be noted that the method implemented by BASiNET uses open source tools and can be executed on a computer with basic configurations, being extended to the classification of other sequences such as DNAs and amino acids.
id UTFPR-12_3e5b92f0d4f6b1de8ff9c457fcb40d9d
oai_identifier_str oai:repositorio.utfpr.edu.br:1/3368
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAsPattern recognition using complex network metrics for feature extraction, representation and classification of sequences of RNAsClassificaçãoRedes de computadoresBioinformáticaClassificationComputer networksBioinformaticsCNPQ::CIENCIAS EXATAS E DA TERRAGenéticaDue to the emergence of Next Generation Sequencers (NGS), a large volume of DNAs and RNAs has been sequenced quickly at relatively lower costs. NGS has a output capacity of several thousands of sequences simultaneously, producing a massive volume of data to be analyzed. In this sense, computational tools become essential not only for an extraction, but also for the data selection and analysis. This research presents a model capable of extracting features for classification of coding and non-coding RNAs. The BiologicAl Sequences NETwork (BASiNET) is available at url https : //cran.r – project.org/package = BASiNET, implements the developed method, which convert RNAs sequences through complex networks, since these are e_cient to represent real systems, as is the case with biological systems. In order to represent the selected sequences, the configuration of the complex network is from the step size parameter, that represents the connections between the nucleotides, and also the word size parameter, that represents the quantity of nucleotides by vertex; afterwards the least dense edges are removed for subnetwork generation resulting from the increasing elimination of 1 to n edges from the network. Subsequently, each subnetwork is submitted to the measures of: proximity, degree, maximum degree, minimum degree, intermediation, clustering coefficient, mean minimum path, standard deviation and motifs. The extraction of measures from each of these subnetworks makes up the feature vector, the vector values are inserted in the supervised classification algorithm that, through the detection of patterns, performs the distinction of sequences with 10-fold cross validation. The BASiNET tool is applied to two data sets. The obtained results were compared with other tools: Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) and Coding Potential Calculator (CPC2). The comparison of the BASiNET performance indicates, since it higher average accuracy results in the identification of coding RNAs and non-coding RNAs in the two experimental data sets. The average indices obtained from the two experiments were higher in the identification of coding RNAs by 8,6 % with respect to the CNCI; 11,4 % with respect to PLEK and 4,4 % with respect to CPC2. Regarding the identification of the non-coding RNAs, the overall average obtained was 2,2 %, 2,6 %, 1,5 % higher with respect to CNCI, PLEK and CPC2, respectively. The improvement of the accuracy indices reinforces the stability and the homogeneity of the method. Finally, it should be noted that the method implemented by BASiNET uses open source tools and can be executed on a computer with basic configurations, being extended to the classification of other sequences such as DNAs and amino acids.A partir do surgimento dos Sequenciadores de Nova Geração (NGS), um grande volume de dados de DNAs e RNAs passaram a ser sequenciados rapidamente a custos relativamente menores. Os NGS têm a capacidade de produção de milhares de sequências simultaneamente, produzindo um volume massivo de dados a serem analisados. Nesse sentido, as ferramentas computacionais se tornam essenciais não só para a extração, mas também para a seleção e análise desses dados. Esta pesquisa apresenta um modelo capaz de extrair características para a classificação de RNAs codificantes e não-codificantes. A ferramenta BiologicAl Sequences NETwork (BASiNET), disponível em: <https://cran.rproject. org/package=BASiNET>, implementa o método desenvolvido, o qual mapeia sequências de RNAs por meio de redes complexas, pois estas são eficientes para representar sistemas reais, nos quais estão inseridos os sistemas biológicos. A fim de representar as sequências selecionadas, a configuração da rede complexa é feita a partir dos parâmetros do tamanho do passo (conexões entre os nucleotídeos) e do tamanho da palavra (quantidade de nucleotídeos por vértice); na sequência, as arestas menos densas são removidas para a geração de sub-redes que são resultantes da eliminação crescente de 1 até n arestas da rede. Posteriormente, cada sub-rede é submetida às métricas de: proximidade, grau, grau máximo, grau mínimo, intermediação, coeficiente de clustering, caminho mínimo médio, desvio padrão e motifs. A extração de métricas de cada uma dessas sub-redes compõe o vetor de características, os valores desse vetor são inseridos no algoritmo de classificação supervisionada que, por meio da detecção de padrões, realiza a distinção das sequências com validação cruzada de 10-fold. A ferramenta BASiNET é aplicada de forma experimental a dois conjuntos de dados. Os resultados obtidos foram comparados com outras ferramentas: Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) e Coding Potential Calculator (CPC2). A comparação evidencia a viabilidade da ferramenta BASiNET, uma vez que esta apresentou resultados médios superiores de acurácia na identificação de RNAs codificantes e RNAs não-codificantes, nos dois conjuntos de dados experimentais. Os índices médios obtidos entre os dois experimentos foram superiores na identificação de RNAs codificantes em 8,6% com relação à CNCI; 11,4% com relação à PLEK e 4,4% com relação à CPC2. A propósito da identificação dos RNAs não-codificantes, a média geral obtida foi superior em 2,2%, 2,6%, 1,5% com relação à CNCI, PLEK e CPC2, respectivamente. A melhoria dos índices de acurácia reforça a estabilidade e a homogeneidade do método. Por fim, convém destacar que o método implementado pela BASiNET usa ferramentas de código aberto e pode ser executado em um computador com configurações básicas, sendo extensível à classificação de outras sequências como as de DNAs e aminoácidos.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação em BioinformáticaUTFPRLopes, Fabrício Martinshttp://lattes.cnpq.br/1660070580824436Pereira, Luiz Filipe Protasiohttp://lattes.cnpq.br/1177022282500069Lopes, Fabrício MartinsKashiwabara, Andre YoshiakiHashimoto, Ronaldo FumioKatahira, Isaque2018-08-21T16:59:01Z2018-08-21T16:59:01Z2018-03-16info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfKATAHIRA, Isaque. Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs. 2018. 85 f. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2018.http://repositorio.utfpr.edu.br/jspui/handle/1/3368porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2018-08-21T16:59:01Zoai:repositorio.utfpr.edu.br:1/3368Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2018-08-21T16:59:01Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs
Pattern recognition using complex network metrics for feature extraction, representation and classification of sequences of RNAs
title Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs
spellingShingle Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs
Katahira, Isaque
Classificação
Redes de computadores
Bioinformática
Classification
Computer networks
Bioinformatics
CNPQ::CIENCIAS EXATAS E DA TERRA
Genética
title_short Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs
title_full Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs
title_fullStr Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs
title_full_unstemmed Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs
title_sort Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs
author Katahira, Isaque
author_facet Katahira, Isaque
author_role author
dc.contributor.none.fl_str_mv Lopes, Fabrício Martins
http://lattes.cnpq.br/1660070580824436
Pereira, Luiz Filipe Protasio
http://lattes.cnpq.br/1177022282500069
Lopes, Fabrício Martins
Kashiwabara, Andre Yoshiaki
Hashimoto, Ronaldo Fumio
dc.contributor.author.fl_str_mv Katahira, Isaque
dc.subject.por.fl_str_mv Classificação
Redes de computadores
Bioinformática
Classification
Computer networks
Bioinformatics
CNPQ::CIENCIAS EXATAS E DA TERRA
Genética
topic Classificação
Redes de computadores
Bioinformática
Classification
Computer networks
Bioinformatics
CNPQ::CIENCIAS EXATAS E DA TERRA
Genética
description Due to the emergence of Next Generation Sequencers (NGS), a large volume of DNAs and RNAs has been sequenced quickly at relatively lower costs. NGS has a output capacity of several thousands of sequences simultaneously, producing a massive volume of data to be analyzed. In this sense, computational tools become essential not only for an extraction, but also for the data selection and analysis. This research presents a model capable of extracting features for classification of coding and non-coding RNAs. The BiologicAl Sequences NETwork (BASiNET) is available at url https : //cran.r – project.org/package = BASiNET, implements the developed method, which convert RNAs sequences through complex networks, since these are e_cient to represent real systems, as is the case with biological systems. In order to represent the selected sequences, the configuration of the complex network is from the step size parameter, that represents the connections between the nucleotides, and also the word size parameter, that represents the quantity of nucleotides by vertex; afterwards the least dense edges are removed for subnetwork generation resulting from the increasing elimination of 1 to n edges from the network. Subsequently, each subnetwork is submitted to the measures of: proximity, degree, maximum degree, minimum degree, intermediation, clustering coefficient, mean minimum path, standard deviation and motifs. The extraction of measures from each of these subnetworks makes up the feature vector, the vector values are inserted in the supervised classification algorithm that, through the detection of patterns, performs the distinction of sequences with 10-fold cross validation. The BASiNET tool is applied to two data sets. The obtained results were compared with other tools: Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) and Coding Potential Calculator (CPC2). The comparison of the BASiNET performance indicates, since it higher average accuracy results in the identification of coding RNAs and non-coding RNAs in the two experimental data sets. The average indices obtained from the two experiments were higher in the identification of coding RNAs by 8,6 % with respect to the CNCI; 11,4 % with respect to PLEK and 4,4 % with respect to CPC2. Regarding the identification of the non-coding RNAs, the overall average obtained was 2,2 %, 2,6 %, 1,5 % higher with respect to CNCI, PLEK and CPC2, respectively. The improvement of the accuracy indices reinforces the stability and the homogeneity of the method. Finally, it should be noted that the method implemented by BASiNET uses open source tools and can be executed on a computer with basic configurations, being extended to the classification of other sequences such as DNAs and amino acids.
publishDate 2018
dc.date.none.fl_str_mv 2018-08-21T16:59:01Z
2018-08-21T16:59:01Z
2018-03-16
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv KATAHIRA, Isaque. Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs. 2018. 85 f. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2018.
http://repositorio.utfpr.edu.br/jspui/handle/1/3368
identifier_str_mv KATAHIRA, Isaque. Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs. 2018. 85 f. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2018.
url http://repositorio.utfpr.edu.br/jspui/handle/1/3368
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação em Bioinformática
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850497923813474304