Detalhes bibliográficos
Ano de defesa: |
2021 |
Autor(a) principal: |
Lopes, Erica da Silva |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-10052021-093703/
|
Resumo: |
O uso de modelos de Aprendizado de Máquina tem sido difundido em diferentes áreas da indústria, seja para medir satisfação de marcas de acordo com comentários na Internet, ou para recomendar produtos, ou para avaliar o risco de crédito. Entretanto, muitos analistas associam esta disciplina exclusivamente à área da Ciência da Computação, desconsiderando conceitos estatísticos fundamentais para garantir o aprendizado, generalização, do modelo. Tendo em vista que a Teoria do Aprendizado Estatístico defende cinco premissas para a garantia da generalização, o objetivo deste estudo é avaliar empiricamente os efeitos ao desconsiderar uma das premissas, a independência entre as observações. Neste sentido, foram avaliadas duas bases de dados do setor bancário, ambas com dados coletados em uma janela temporal. As bases foram separadas em três subconjuntos (treino, validação e teste), em que os dois primeiros contêm observações coletadas na mesma janela temporal, porém a validação não foi usada no desenvolvimento do modelo. Observa-se que o teste contém informações novas não pertencentes a janela temporal da base de treino. O subconjunto de validação permite que o desempenho do modelo seja avaliado em dados que possuem características semelhantes aos utilizados no treino. Por outro lado, o teste permite a avaliação em um novo cenário, uma vez que o período de observação não foi incluído no treino do modelo. A técnica de Aprendizado de Máquina Light Gradient Boosting Machine foi usada para modelar cada uma das bases de treino. A performance dos modelos foi mensurada com a métrica AUC e comparada com os diferentes tipos de autocorrelação de cada base (dependência entre unidades amostrais e temporal). Os resultados mostram que a autocorrelação temporal, estatisticamente significante para os dois conjuntos de dados, influencia na queda de performance fora da janela temporal de desenvolvimento dos modelos (subconjuntos de teste). Por outro lado, para base de dados em que não há autocorrelação significativa entre as observações, o modelo ajustado apresentou bom desempenho para os dados de validação, diferente do que ocorreu com a base que possui autocorrelação significativa entre as observações. Sendo assim, há indícios de que ao se desconsiderar a premissa de independência no conjunto de dados a capacidade de aprendizado do modelo é prejudicada. |