Ensemble learning by diversifying explanations: predicting the evolution of pain relief
Ano de defesa: | 2021 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Tese |
Tipo de acesso: | Acesso aberto |
Idioma: | eng |
Instituição de defesa: |
Universidade Federal de Minas Gerais
Brasil ICEX - INSTITUTO DE CIÊNCIAS EXATAS Programa de Pós-Graduação em Ciência da Computação UFMG |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://hdl.handle.net/1843/42297 https://orcid.org/ 0000-0003-4339-3003 |
Resumo: | A modelagem a partir de dados geralmente tem duas facetas distintas: construir modelos explicativos sólidos ou criar modelos preditivos poderosos para um sistema ou fenômeno. Embora exista um senso instintivo de que prever e explicar são tarefas distintas, muitas vezes se assume que modelos com alto poder explicativo são inerentemente de alto poder preditivo. Apesar desta relação, os mais recentes trabalhos de modelagem de dados se encaixam na metodologia de aprendizagem de máquina tudo-em-um, com a suposição básica de que todos os fatores explicativos importantes podem ser combinados em um único modelo preditivo. Embora altamente adotada e estabelecida, a metodologia tudo-em-um negligencia que muitos fenômenos são realmente definidos por várias subpopulações ou estruturas locais e, portanto, há muitos modelos de previsão possíveis que fornecem interpretações contrastantes ou explicações concorrentes para o mesmo fenômeno. Neste trabalho, apresentamos o ED-Ensemble (Explanation-Diversifying Ensemble), uma alternativa à metodologia tudo-em-um. Nossa principal intuição é que os modelos que têm suas decisões explicadas pelos mesmos fatores provavelmente farão melhores previsões dentro das mesmas estruturas locais. O ED-Ensemble obtido a partir de nossos experimentos superou consistentemente as abordagens tudo-em-um, mesmo empregando os algoritmos de ensemble de última geração XGBoost e Random Forest. Nossa abordagem proposta, considerando apenas primeira consulta, alcançou um AUC de 0,78 usando XGBoost como algoritmo de aprendizado, representando um ganho de desempenho relativo de até 20,37% comparado ao XGBoost tudo-em-um, e AUC de 0,75 quando usando Random Forest como algoritmo de aprendizado, com ganho de desempenho relativo de até 15,03% comparado ao Random Forest tudo-em-um. Além disso, o número de features é significativamente reduzido, fazendo uso de tão pouco quanto 15% das features. Ao considerar as consultas sequenciais, os experimentos mostraram consistentemente que quanto mais consultas consideradas, maior será o desempenho alcançado. Nossa abordagem EXP-MF combinada com o ED-Ensemble alcançou uma AUC de 0,945 (aumento de 23,37%) utilizando cinco consultas. Uma tendência de aumento semelhante na AUC também foi observada para os algoritmos EXP-MF combinado com XGBoost e EXP-MF combinado com Random Forest, alcançando 0,843 (aumento de 50%) e 0,810 (aumento de 62,98%), respectivamente. Finalmente, o ensemble proposto baseada em diversidade de explicações se apresentou como uma alternativa superior à abordagem tudo-em-um em problemas de fenômenos de múltiplas estruturas tanto nos dados de corte transversal quanto dados longitudinais. |