Reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas

Bibliographic Details
Main Author: Barbosa, Murilo Caminotto
Publication Date: 2025
Format: Doctoral thesis
Language: por
Source: Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
Download full: http://repositorio.utfpr.edu.br/jspui/handle/1/37935
Summary: With the advancement of sequencing technologies, the development of tools capable of processing this type of data and extracting actionable knowledge for industry has become increasingly necessary. A promising application is the identification of bacteria correlated with agricultural productivity, with the potential to predict crop yields in future harvests. This type of application has a direct impact on the agricultural industry and significant economic potential. Although there are tools that integrate physical, chemical, and biological soil data to support agricultural management, they are not designed to handle the compositional nature of sequencing data and, therefore, cannot identify the bacteria responsible for producing these elements. Selecting bacteria, rather than just soil elements, is essential, as microbial communities respond dynamically to environmental changes—such as rainfall or drought—offering more sensitive and predictive insights into soil health. To address this gap, we developed CODARFE (COmpositional Data Analysis with Recursive Feature Elimination), a tool capable of associating microbiome data with continuous environmental variables and making predictions on new samples — a capability not previously available in tools from this field. CODARFE was developed in collaboration with the company SUPERBAC, which provided its proprietary microbiome database for model training and validation. The tool was able to predict soybean yield in clay soils with a mean absolute error of 248 kg/ha, equivalent to only 7% deviation from the national average, by integrating selected bacterial abundances with physical and chemical soil variables. Furthermore, during a 10-month research exchange at the European Bioinfor matics Institute (EMBL-EBI), under the Dr. Robert Finn’s supervision, through the CAPES (PDSE) program, the method was refined and tested on a variety of public datasets, leading to its integration into the MGnify platform. As a result, CODARFE was made available in five accessible formats (Python class, Windows executable, Linux command line, interactive notebook, and via MGnify) and published in the journal GigaScience, enhancing its visibility and accessibility to the scientific community. The tool has two software registrations: a public registration, ensuring access for the research community, and a private registration tied to the partnership with SUPERBAC, protecting the commercial usage rights of the model developed with proprietary data.
id UTFPR-12_20ebd16e79e1d3f133dadc1c47404cb4
oai_identifier_str oai:repositorio.utfpr.edu.br:1/37935
network_acronym_str UTFPR-12
network_name_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository_id_str
spelling Reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuasRecognition of patterns in microbiome and prediction ofcontinuous environmental variablesAprendizado do computadorProdutividade agrícolaBioinformáticaMachine learningAgricultural productivityBioinformaticsCNPQ::CIENCIAS SOCIAIS APLICADASCiência da ComputaçãoWith the advancement of sequencing technologies, the development of tools capable of processing this type of data and extracting actionable knowledge for industry has become increasingly necessary. A promising application is the identification of bacteria correlated with agricultural productivity, with the potential to predict crop yields in future harvests. This type of application has a direct impact on the agricultural industry and significant economic potential. Although there are tools that integrate physical, chemical, and biological soil data to support agricultural management, they are not designed to handle the compositional nature of sequencing data and, therefore, cannot identify the bacteria responsible for producing these elements. Selecting bacteria, rather than just soil elements, is essential, as microbial communities respond dynamically to environmental changes—such as rainfall or drought—offering more sensitive and predictive insights into soil health. To address this gap, we developed CODARFE (COmpositional Data Analysis with Recursive Feature Elimination), a tool capable of associating microbiome data with continuous environmental variables and making predictions on new samples — a capability not previously available in tools from this field. CODARFE was developed in collaboration with the company SUPERBAC, which provided its proprietary microbiome database for model training and validation. The tool was able to predict soybean yield in clay soils with a mean absolute error of 248 kg/ha, equivalent to only 7% deviation from the national average, by integrating selected bacterial abundances with physical and chemical soil variables. Furthermore, during a 10-month research exchange at the European Bioinfor matics Institute (EMBL-EBI), under the Dr. Robert Finn’s supervision, through the CAPES (PDSE) program, the method was refined and tested on a variety of public datasets, leading to its integration into the MGnify platform. As a result, CODARFE was made available in five accessible formats (Python class, Windows executable, Linux command line, interactive notebook, and via MGnify) and published in the journal GigaScience, enhancing its visibility and accessibility to the scientific community. The tool has two software registrations: a public registration, ensuring access for the research community, and a private registration tied to the partnership with SUPERBAC, protecting the commercial usage rights of the model developed with proprietary data.Com o avanço das tecnologias de sequenciamento, torna-se cada vez mais neces sário o desenvolvimento de ferramentas capazes de processar e extrair conhecimento deste tipo de informação. Uma aplicação promissora é a identificação de bactérias correlacionadas com a produtividade agrícola, com potencial de prever o rendimento de safras futuras. Esta aplicação tem impacto direto na indústria agrícola e elevado potencial econômico. Embora existam ferramentas que integrem dados físicos, químicos e biológicos do solo paraapoiar o manejo agrícola, elas não foram projetadas para lidar com a natureza composicional dos dados de sequenciamento e, por isso, não conseguem identificar as bactérias responsáveis pela produção desses elementos. A seleção de bactérias, em vez de apenas elementos presentes no solo, é essencial, uma vez que elas respondem dinamicamente a mudanças ambientais, como chuvas e secas, oferecendo informações mais sensíveis e preditivas sobre a saúde do solo. A fim de preencher essa lacuna, desenvolvemos o CODARFE (COmpositional Data Analysis with Recursive Feature Elimination), uma ferramenta capaz de associar dados de microbioma a variáveis ambientais contínuas e realizar predições em novas amostras — algo inédito até então entre ferramentas da área. O desenvolvimento do CODARFE foi realizado em parceria com a empresa SUPERBAC, que forneceu seu banco de dados de microbioma para o treinamento e validação do modelo. A ferramenta foi capaz de prever a produtividade de soja em solos argilosos com erro médio absoluto de 248 kg/ha, equivalente a um desvio de apenas 7% em relação à média nacional, ao integrar a abundância de bactérias selecionadas com variáveis físicas e químicas do solo. Além disso, durante um período de 10 meses no European Bioinformatics Institute (EMBL-EBI), sob supervisão do Dr. Robert Finn, por meio do Programa de Doutorado Sanduíche no Exterior (PDSE) da CAPES, o método foi refinado e testado em dados públicos variados, resultando em sua integração à plataforma MGnify. O método foi validado em 24 banco de dados diferentes (19 de solo e 5 de humanos), e comparado com quatro outras ferramentas, superando-as em 21 dos 24 bancos de dados testados (87.5%) nos quesitos correlação com o alvo e taxa de verdadeiro positivos. Como resultado, o CODARFE foi disponibilizado em cinco formatos acessíveis (classe Python, executável para Windows, linha de comando Linux, notebook interativo e via MGnify) e publicado no periódico GigaScience, contribuindo para sua ampla disseminação e acessibilidade. A ferramenta possui dois registros de software: um registro público, assegurando6 sua disponibilidade à comunidade científica, e um registro privado vinculado à parceria com a SUPERBAC, protegendo os direitos de uso comercial do modelo desenvolvido com dados proprietários.Universidade Tecnológica Federal do ParanáCornelio ProcopioBrasilPrograma de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)UTFPRPaschoal, Alexandre Rossihttps://orcid.org/0000-0002-8887-0582https://lattes.cnpq.br/5834088144837137Varani, Alessandro de Mellohttps://lattes.cnpq.br/9429712259649346Paschoal, Alexandre Rossihttps://lattes.cnpq.br/5834088144837137Lopes, Fabricio Martinshttps://lattes.cnpq.br/1660070580824436Valente, Guilherme TarginoBoas, Laurival Antonio Vilashttps://lattes.cnpq.br/6053806923630324Barbosa, Murilo Caminotto2025-08-19T23:25:09Z2095-07-302025-08-19T23:25:09Z2025-05-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfBARBOSA, Murilo Caminotto. reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.http://repositorio.utfpr.edu.br/jspui/handle/1/37935porinfo:eu-repo/semantics/embargoedAccessreponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))instname:Universidade Tecnológica Federal do Paraná (UTFPR)instacron:UTFPR2025-08-20T06:13:28Zoai:repositorio.utfpr.edu.br:1/37935Repositório InstitucionalPUBhttp://repositorio.utfpr.edu.br:8080/oai/requestriut@utfpr.edu.br || sibi@utfpr.edu.bropendoar:2025-08-20T06:13:28Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)false
dc.title.none.fl_str_mv Reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas
Recognition of patterns in microbiome and prediction ofcontinuous environmental variables
title Reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas
spellingShingle Reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas
Barbosa, Murilo Caminotto
Aprendizado do computador
Produtividade agrícola
Bioinformática
Machine learning
Agricultural productivity
Bioinformatics
CNPQ::CIENCIAS SOCIAIS APLICADAS
Ciência da Computação
title_short Reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas
title_full Reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas
title_fullStr Reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas
title_full_unstemmed Reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas
title_sort Reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas
author Barbosa, Murilo Caminotto
author_facet Barbosa, Murilo Caminotto
author_role author
dc.contributor.none.fl_str_mv Paschoal, Alexandre Rossi
https://orcid.org/0000-0002-8887-0582
https://lattes.cnpq.br/5834088144837137
Varani, Alessandro de Mello
https://lattes.cnpq.br/9429712259649346
Paschoal, Alexandre Rossi
https://lattes.cnpq.br/5834088144837137
Lopes, Fabricio Martins
https://lattes.cnpq.br/1660070580824436
Valente, Guilherme Targino
Boas, Laurival Antonio Vilas
https://lattes.cnpq.br/6053806923630324
dc.contributor.author.fl_str_mv Barbosa, Murilo Caminotto
dc.subject.por.fl_str_mv Aprendizado do computador
Produtividade agrícola
Bioinformática
Machine learning
Agricultural productivity
Bioinformatics
CNPQ::CIENCIAS SOCIAIS APLICADAS
Ciência da Computação
topic Aprendizado do computador
Produtividade agrícola
Bioinformática
Machine learning
Agricultural productivity
Bioinformatics
CNPQ::CIENCIAS SOCIAIS APLICADAS
Ciência da Computação
description With the advancement of sequencing technologies, the development of tools capable of processing this type of data and extracting actionable knowledge for industry has become increasingly necessary. A promising application is the identification of bacteria correlated with agricultural productivity, with the potential to predict crop yields in future harvests. This type of application has a direct impact on the agricultural industry and significant economic potential. Although there are tools that integrate physical, chemical, and biological soil data to support agricultural management, they are not designed to handle the compositional nature of sequencing data and, therefore, cannot identify the bacteria responsible for producing these elements. Selecting bacteria, rather than just soil elements, is essential, as microbial communities respond dynamically to environmental changes—such as rainfall or drought—offering more sensitive and predictive insights into soil health. To address this gap, we developed CODARFE (COmpositional Data Analysis with Recursive Feature Elimination), a tool capable of associating microbiome data with continuous environmental variables and making predictions on new samples — a capability not previously available in tools from this field. CODARFE was developed in collaboration with the company SUPERBAC, which provided its proprietary microbiome database for model training and validation. The tool was able to predict soybean yield in clay soils with a mean absolute error of 248 kg/ha, equivalent to only 7% deviation from the national average, by integrating selected bacterial abundances with physical and chemical soil variables. Furthermore, during a 10-month research exchange at the European Bioinfor matics Institute (EMBL-EBI), under the Dr. Robert Finn’s supervision, through the CAPES (PDSE) program, the method was refined and tested on a variety of public datasets, leading to its integration into the MGnify platform. As a result, CODARFE was made available in five accessible formats (Python class, Windows executable, Linux command line, interactive notebook, and via MGnify) and published in the journal GigaScience, enhancing its visibility and accessibility to the scientific community. The tool has two software registrations: a public registration, ensuring access for the research community, and a private registration tied to the partnership with SUPERBAC, protecting the commercial usage rights of the model developed with proprietary data.
publishDate 2025
dc.date.none.fl_str_mv 2025-08-19T23:25:09Z
2025-08-19T23:25:09Z
2025-05-29
2095-07-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv BARBOSA, Murilo Caminotto. reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
http://repositorio.utfpr.edu.br/jspui/handle/1/37935
identifier_str_mv BARBOSA, Murilo Caminotto. reconhecimento de padrões em microbioma e predição de variáveis ambientais contínuas. 2025. Tese (Doutorado em Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
url http://repositorio.utfpr.edu.br/jspui/handle/1/37935
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/embargoedAccess
eu_rights_str_mv embargoedAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)
UTFPR
publisher.none.fl_str_mv Universidade Tecnológica Federal do Paraná
Cornelio Procopio
Brasil
Programa de Pós-Graduação Associado em Bioinformática (Ufpr/Utfpr)
UTFPR
dc.source.none.fl_str_mv reponame:Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
instname:Universidade Tecnológica Federal do Paraná (UTFPR)
instacron:UTFPR
instname_str Universidade Tecnológica Federal do Paraná (UTFPR)
instacron_str UTFPR
institution UTFPR
reponame_str Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
collection Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT))
repository.name.fl_str_mv Repositório Institucional da UTFPR (da Universidade Tecnológica Federal do Paraná (RIUT)) - Universidade Tecnológica Federal do Paraná (UTFPR)
repository.mail.fl_str_mv riut@utfpr.edu.br || sibi@utfpr.edu.br
_version_ 1850497858351923200