Avaliação de algoritmos para a análise preditiva das notas de Engenharia no ENADE utilizando dados socioeconômicos.

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: Guilhen, Bruno Anselmo
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://www.teses.usp.br/teses/disponiveis/3/3142/tde-28052024-082941/
Resumo: O processo de análise preditiva consiste em realizar previsões tomando como base alguns algoritmos de aprendizado de máquina. Um tipo muito comum consiste em utilizar algoritmos de regressão linear aplicados em uma base de dados devidamente tratada. O tratamento dos dados consiste em realizar a análise exploratória dos dados através de análise estatística, com objetivo de reduzir a dimensionalidade dos dados, tratar a multicolinearidade e realizar a devida validação dos dados que serão utilizados para treino e teste dos algoritmos de regressão. A escolha da base de dados também é outro fator de extrema importância para obter resultados estatisticamente válidos. O trabalho utilizou a base de dados fornecida pelo governo federal contendo os dados dos estudantes dos cursos de engenharia que realizaram a prova do ENADE em 2019. Após o devido tratamento estatístico, foram escolhidos algoritmos de regressão linear para o processo de análise preditiva. Os algoritmos selecionados foram: LightGBM, XGBoost e o CatBoost. O critério de escolha foi o balanço entre replicabilidade dos resultados com menor erro e menor tempo de treinamento. Levou-se em conta fatores como R² (R-squared), RMSE (Root Mean Squared Error), MAE (Mean Absolute Error), Median Absolute Error. O treinamento dos algoritmos passou por ajustes dos hiperparâmetros que representam a melhor opção para a melhor resposta. Depois de realizados os ajustes foi possível realizar previsões e retirar insights da base. Do ponto de vista da engenharia, o modelo proposto permite analisar dados socioeconômicos e prever o desempenho do estudante no ENADE. Do ponto de vista social, o trabalho permite que uma instituição universitária consiga analisar e programar suas políticas sociais desde os anos iniciais, neste ponto, os algoritmos permitem predizer a nota esperada com base nas condições que a instituição oferece ao estudante, por exemplo, oferecimento de cotas, bolsas de estudos, bolsa de iniciação científica entre outros.