Detalhes bibliográficos
Ano de defesa: |
2018 |
Autor(a) principal: |
Batista, Maria Rita Sifuentes |
Orientador(a): |
Não Informado pela instituição |
Banca de defesa: |
Não Informado pela instituição |
Tipo de documento: |
Dissertação
|
Tipo de acesso: |
Acesso aberto |
Idioma: |
por |
Instituição de defesa: |
Biblioteca Digitais de Teses e Dissertações da USP
|
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: |
|
Link de acesso: |
http://www.teses.usp.br/teses/disponiveis/55/55137/tde-25032019-141126/
|
Resumo: |
Os últimos anos foram marcados por um avanço expressivo da tecnologia, principalmente na área de computação. Estes avanços, quando somados à diversidade de produtos oferecidos por empresas de diferentes segmentos, e aos esforços destas em capturar e armazenar dados de seus clientes e de suas operações, ajudam a explicar a quantidade de informações que atualmente é produzida. As organizações, em geral, têm se mostrado eficientes em capturar, organizar e armazenar grandes quantidades de dados, mas nem todas os utilizam adequadamente, no sentido de transformá-los em conhecimentos úteis para suas atividades. Algoritmos de aprendizado de máquina são uma ferramenta computacional poderosa para aquisição de conhecimento a partir da experiência. A utilização desses algoritmos permite avanços e descobertas que conferem vantagem competitiva às empresas. A tarefa de aprendizado de máquina mais comum é o aprendizado supervisionado, cujo objetivo é aprender um modelo preditivo a partir de um conjunto de dados. Esse modelo deve ser capaz de generalizar o conhecimento adquirido para dados desconhecidos. Isso permite que o modelo tenha uma boa capacidade preditiva. Uma aplicação importante e bastante utilizada do aprendizado supervisionado são os problemas de classificação, comumente encontrados na indústria financeira. Um dos desafios dessa indústria é prever a capacidade de pagamento de seus clientes, classificando-os como bons ou maus pagadores. Neste trabalho, cinco algoritmos de aprendizado de máquina supervisionado foram investigados e aplicados à um problema real de classificação: regressão logística, classificadores bayesianos, k-vizinhos mais próximos, random forests e redes neurais. Como o desempenho desses algoritmos é afetado pelas variáveis utilizadas, técnicas de seleção de variáveis foram aplicadas ao conjunto de dados original. O uso dessas técnicas permite reduzir o tempo computacional, removendo informações redundantes e irrelevantes. Medidas de desempenho para classificação binária foram utilizadas para avaliar o desempenho preditivo dos modelos gerados pelos cinco algoritmos e compará-los. Como é cada vez mais importante ter modelos facilmente interpretáveis, foram também avaliadas a interpretabilidade e a complexidade dos modelos gerados. |