Algoritmo de aprendizado por reforço em estratégia de negociação de ações em alta frequência

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Almiñana, Cesar Cavini
Orientador(a): Silva, Leandro Augusto da
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
eng
Instituição de defesa: Universidade Presbiteriana Mackenzie
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: https://dspace.mackenzie.br/handle/10899/32538
Resumo: “Seria possível ganhar dinheiro, a todo minuto, comprando e vendendo ações na Bolsa?”. À primeira vista, este questionamento envolve diretamente o problema de predição dos preços de uma determinada ação – e que tem sido objeto de estudo, aprofundamento e evolução nas últimas décadas – buscando alcançar realizações financeiras positivas e relevantes, envolvendo o menor risco de operação possível. O uso de modelos de aprendizado por reforço (Reinforcement Learning, ou RL) aliados ao conceito de processos decisórios de Markov (Markov Decision Process, MDP), elimina a necessidade da previsão de preços ou valores específicos, otimiza e automatiza a tomada de decisões. Por sua vez, estratégias de compra e venda de ações em alta frequência (high frequency trading, ou HFT) permitem a redução dos riscos de operação, beneficiando-se de pequenas variações de preço para realização de pequenos lucros que, multiplicados por um alto volume diário, permitem acumular lucros relevantes. Este estudo busca validar, portanto, se o uso combinados de técnicas de RL, aliadas ao conceito de HFT e a execução automática de operações, são capazes de resultar em lucros múltiplas vezes ao longo do dia. Deste modo, foram desenvolvidas e testadas diferentes configurações de modelos para ações da bolsa brasileira e, a partir de um ambiente simulado, foram avaliadas segundo acurácia e aproveitamento do potencial máximo de ganho, e comparadas variação de cada ação no mesmo período (benchmark). Com isso, foi possível provar que as técnicas utilizadas permitem descrever o ambiente de compra e venda de ações em detalhe e, mesmo com a alta incidência de impostos sobre cada operação, apresentaram resultados bastante positivos para 81,25% das ações avaliadas, permitindo contabilizar ganhos relevantes (aproximadamente +480%), que ultrapassam com folga o benchmark, validando assim o modelo de alta frequência e risco controlado.