Comparação entre métodos de imputação de dados em diferentes intensidades amostrais na série homogênea de precipitação pluvial da ESALQ

Detalhes bibliográficos
Ano de defesa: 2019
Autor(a) principal: Gasparetto, Suelen Cristina
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
PMM
Link de acesso: http://www.teses.usp.br/teses/disponiveis/11/11134/tde-23082019-150302/
Resumo: Problemas frequentes nas análises estatísticas de informações meteorológicas são a ocorrência de dados faltantes e ausência de conhecimento acerca da homogeneidade das informações contidas no banco de dados. O objetivo deste trabalho foi testar e classificar a homogeneidade da série de precipitação pluvial da estação climatológica convencional da ESALQ, no período de 1917 a 1997, e comparar três métodos de imputação de dados, em diferentes intensidades amostrais (5%, 10% e 15%) de informações faltantes, geradas de forma aleatória. Foram utilizados três testes de homogeneidade da série: Pettitt, Buishand e normal padrão. Para o \"preenchimento\" das informações faltantes, foram comparados três métodos de imputação múltipla: PMM (Predictive Mean Matching), random forest e regressão linear via método bootstrap, em cada intensidade amostral de informações faltantes. Os métodos foram utilizados por meio do pacote MICE (Multivariate Imputation by Chained Equations) do R. A comparação entre cada procedimento de imputação foi feita por meio da raiz do erro quadrático médio, índice de exatidão de Willmott e o índice de desempenho. A série de chuva foi entendida como de classe 1, ou seja, \"útil\" - Nenhum sinal claro de falta de homogeneidade foi aparente e, o método que resultou em menores valores da raiz quadrada dos erros e maiores índices foi o PMM, em especial na intensidade de 10% de informações faltantes. O índice de desempenho para os três métodos de imputação de dados em todas as intensidades de observações faltantes foi considerado \"Péssimo\"