Fit-Spark: Framework para otimização distribuída de hiperparâmetros de aprendizado de máquina usando uma linguagem de domínio específico

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Linhares, Tiago Miranda
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Estadual do Ceará
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Link de acesso: https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=106052
Resumo: Fit-Spark é um framework com o objetivo de otimizar os hiperparâmetros de algoritmos de aprendizado de máquina de forma automática. O foco principal deste trabalho é fornecer um framework capaz de executar algoritmos de aprendizado de máquina, voltados para classificação, utilizando um ambiente de computação distribuída baseado em Map Reduce para encontrar os melhores hiperparâmetros em um menor tempo. Para facilitar a interação com usuário, este sistema também oferece uma Linguagem de Domínio Específico que permite ao usuário especificar algumas restrições de hiperparâmetros e uma métrica para otimizar o modelo, podendo ser: acurácia, precisão, recall, tempo de execução ou taxa de falsos positivos. Em outras palavras, o framework Fit-Spark visa automatizar o processo de otimização de hiperparâmetros, onde o usuário apenas define a meta a ser alcançada, e o resultado consiste em apresentar todos os modelos que atingiram ou ultrapassaram essa meta. Para validar a arquitetura proposta foram realizados vários experimentos com os algoritmos Naive Bayes, Decision Tree, Support Vector Machine na plataforma Apache Spark e comparando com o resultado de outros artigos usando os mesmos datasets. Finalmente, é demonstrado que o Fit-Spark encontra de forma automática uma combinação de hiperparâmetros que produz resultados semelhantes, e em alguns casos, até superiores às implementações calibradas manualmente.