Métodos preditivos computacionalmente eficientes baseados em floresta aleatória

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Santos, Tiago Mendonça dos
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Tese
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-01052024-164427/
Resumo: Nas últimas duas ou três décadas, testemunhamos uma revolução nos modelos preditivos, sendo dois fatores críticos nesse cenário: o desempenho computacional e o desempenho preditivo. O desempenho computacional refere-se à velocidade com que um modelo é ajustado numa base de dados e faz previsões para novas observações, enquanto o desempenho preditivo refere-se à precisão de tais previsões. Nesta tese, apresento dois estimadores para esperança condicional e regressão quantílica. Esses estimadores, denominados DiNo (Dissimilarity with Nodes) e RanBu (Random Bushes), são inspirados nas técnicas de vizinhos mais próximos e métodos de kernel de suavização. O estimador DiNo utiliza uma nova medida de dissimilaridade baseada nas distâncias entre os nós das Árvores de uma Floresta Aleatória. Já o estimador RanBu considera a proporção de Árvores da Floresta Aleatória em que as observações pertençam ao mesmo nó terminal. A avaliação desses métodos é conduzida em três cenários de dados simulados. Os resultados indicam que o estimador RanBu supera a Floresta Aleatória padrão em desempenho computacional e preditivo em todos os cenários com variáveis de ruído, tanto para esperança condicional quanto para regressão quantílica. Já o estimador DiNo, na presença de ruído, apresenta melhor desempenho preditivo que a Floresta Aleatória padrão na maioria dos cenários. Além da análise em dados simulados, estendo a avaliação para 25 conjuntos de dados encontrados na literatura de modelos preditivos. Os resultados destacam a competitividade dos métodos propostos em relação a abordagens tradicionais, como Boosting e a Floresta Aleatória padrão. Os dois métodos propostos incorporam um hiperparâmetro h que regula o peso de cada observação na previsão. Embora a escolha padrão de h seja razoavelmente boa, há espaço para melhorias, especialmente através do ajuste fino adaptado a cada conjunto de dados. Um ponto notável é o desempenho computacional excepcional do método RanBu, que, em alguns casos, demanda menos de 5% do tempo necessário para a execução da Floresta Aleatória. Em cenários de esperança condicional e regressão quantílica, o estimador RanBu demonstra uma eficiência computacional crescente em relação à Floresta Aleatória conforme o tamanho do conjunto de treinamento aumenta. Este fenômeno destaca o potencial do estimador RanBu em lidar eficientemente com grandes conjuntos de dados, uma característica valiosa em aplicações práticas.