A utilização de algoritmos de aprendizado de máquina em problemas de classificação

Detalhes bibliográficos
Ano de defesa: 2018
Autor(a) principal: Batista, Maria Rita Sifuentes
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Biblioteca Digitais de Teses e Dissertações da USP
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://www.teses.usp.br/teses/disponiveis/55/55137/tde-25032019-141126/
Resumo: Os últimos anos foram marcados por um avanço expressivo da tecnologia, principalmente na área de computação. Estes avanços, quando somados à diversidade de produtos oferecidos por empresas de diferentes segmentos, e aos esforços destas em capturar e armazenar dados de seus clientes e de suas operações, ajudam a explicar a quantidade de informações que atualmente é produzida. As organizações, em geral, têm se mostrado eficientes em capturar, organizar e armazenar grandes quantidades de dados, mas nem todas os utilizam adequadamente, no sentido de transformá-los em conhecimentos úteis para suas atividades. Algoritmos de aprendizado de máquina são uma ferramenta computacional poderosa para aquisição de conhecimento a partir da experiência. A utilização desses algoritmos permite avanços e descobertas que conferem vantagem competitiva às empresas. A tarefa de aprendizado de máquina mais comum é o aprendizado supervisionado, cujo objetivo é aprender um modelo preditivo a partir de um conjunto de dados. Esse modelo deve ser capaz de generalizar o conhecimento adquirido para dados desconhecidos. Isso permite que o modelo tenha uma boa capacidade preditiva. Uma aplicação importante e bastante utilizada do aprendizado supervisionado são os problemas de classificação, comumente encontrados na indústria financeira. Um dos desafios dessa indústria é prever a capacidade de pagamento de seus clientes, classificando-os como bons ou maus pagadores. Neste trabalho, cinco algoritmos de aprendizado de máquina supervisionado foram investigados e aplicados à um problema real de classificação: regressão logística, classificadores bayesianos, k-vizinhos mais próximos, random forests e redes neurais. Como o desempenho desses algoritmos é afetado pelas variáveis utilizadas, técnicas de seleção de variáveis foram aplicadas ao conjunto de dados original. O uso dessas técnicas permite reduzir o tempo computacional, removendo informações redundantes e irrelevantes. Medidas de desempenho para classificação binária foram utilizadas para avaliar o desempenho preditivo dos modelos gerados pelos cinco algoritmos e compará-los. Como é cada vez mais importante ter modelos facilmente interpretáveis, foram também avaliadas a interpretabilidade e a complexidade dos modelos gerados.