Detalhes bibliográficos
Ano de defesa: |
2023 |
Autor(a) principal: |
Barbosa, Wesley Lourenço |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/3/3141/tde-11052023-080858/
|
Resumo: |
Os modelos de distribuição de espécies se tornaram uma ferramenta importante em ecologia, biogeografia, sustentabilidade e, mais recentemente, em gestão de conservação. No entanto, problemas de qualidade presentes nos dados utilizados na modelagem de distribuição de espécies podem resultar em modelos imprecisos e que não refletem o real padrão de distribuição das espécies. Como consequência, estratégias de conservação baseadas em modelos de distribuição gerados por dados enviesados, podem resultar em desperdício de recursos financeiros ou perda importante de biodiversidade. Assim, o objetivo deste trabalho é investigar como problemas de qualidade de dados afetam os resultados dos modelos de distribuição de espécies. A metodologia do trabalho emprega uma estratégia de simulação que consiste na criação de duas bases de dados, uma base de controle e outra de erros. A base de controle é constituída por dados ambientais e dados simulados de presença e ausência de uma espécie virtual. A base de erros é imputada com problemas de qualidade e utilizada para a amostragem de diferentes gradientes de erros para teste. Os resultados da revisão de escopo indicaram que erros de localização, erros de identificação e viés geográfico são os mais comuns em dados de ocorrência de espécies. Os algoritmos de Maximum Entropy Modeling (Maxent), Random Forest (RF) e Generalized Linear Model (GLM), Neural Network (NN) e Extreme Gradient Boosting (XGBoost) foram utilizados e avaliados quanto a robustez e capacidade de generalização mesmo para amostras de treinamento com erros de qualidade de dados. O XGBoost gerou modelos bastante robustos a diversos tipos e intensidades de erros. O GLM gerou os modelos mais sensíveis aos problemas de qualidade. O tipo de erro de viés geográfico foi o que teve maior efeito sobre os resultados dos modelos, enquanto os erros de localização, embora muito discutidos na literatura científica, só geraram impacto expressivo quando a amostra estava contaminada por erros de alta intensidade. A métrica AUC (Area Under the Curve), comumente utilizada para validar modelos de aprendizado de máquina para tarefas de classificação, mostrou-se pouco susceptível à presença de erros nos dados de treinamento, por outro lado, as métricas Kappa, MCC (Matthews Correlation Coefficient), TSS (True Statistics Skill) estão entre as mais sensíveis a problemas de qualidade. Este trabalho empregou a simulação de espécies virtuais, geradas a partir do comportamento identificado de 6 espécies de nicho ecológico amplo e restrito obtidas no repositório de dados de biodiversidade GBIF, para avaliar o impacto de diferentes gradientes de três tipos de erros de qualidade de dados em modelos de distribuição de espécie. Os resultados trazem um aprofundamento importante no entendimento dos impactos dos erros nos dados de ocorrência de espécies, e contribuem para avanço da área de estudos de qualidade de dados em estudos de biodiversidade e conservação. |