Vehicle industry big data analysis using clustering approaches

Detalhes bibliográficos
Ano de defesa: 2022
Autor(a) principal: Seixas, Lenon Diniz lattes
Orientador(a): Corrêa, Fernanda Cristina lattes
Banca de defesa: Corrêa, Fernanda Cristina lattes, Martins, Marcella Scoczynski Ribeiro lattes, Reis, Márcio Rodrigues da Cunha lattes, Delgado, Myriam Regattieri de Biase da Silva lattes
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: eng
Instituição de defesa: Universidade Tecnológica Federal do Paraná
Ponta Grossa
Programa de Pós-Graduação: Programa de Pós-Graduação em Engenharia Elétrica
Departamento: Não Informado pela instituição
País: Brasil
Palavras-chave em Português:
Área do conhecimento CNPq:
Link de acesso: http://repositorio.utfpr.edu.br/jspui/handle/1/31331
Resumo: Trabalhar com dados se tornou algo fundamental e imprescindível no mundo moderno. Considerando uma economia e indústria mundial globalizada, a análise e visualização de dados oferece informações esclarecedoras para tomadas de decisão e planejamento estratégico. Para extrair o máximo valor possível de um conjunto de dados, a ciência de dados oferece diversos métodos estatísticos e científicos, abrangendo toda a preparação, limpeza, agregação e manipulação de dados. O Aprendizado de máquina (ML) e a Inteligência Artificial (AI) vêm juntos para aprender e explorar os dados, descobrindo coisas que não podem ser vistas apenas com a experiência do analista. O setor automotivo, que possui grande influência na economia e indústria mundial, sofre os impactos de ser focado em tecnologia e em prazos relativamente curtos. A transformação digital tem então um efeito disruptivo, considerado como o fenômeno mais importante nos 140 anos do setor, fazendo com que empresas de automóveis ofereçam produtos personalizados e otimizados para as necessidades do cliente. Para fazer isso, é necessário trabalhar extensivamente com dados e ciência de dados. Então, este trabalho traz um estudo para investigar os métodos de clustering de um conjunto de dados Big Data de uma companhia de automóveis, realizando uma revisão da literatura, tratando, normalizando e agrupando usando os métodos pesquisados, e, por fim, comparando e analisando os resultados. Foi utilizado o método Knowledge Discovery and Data mining para realizar o processo de mineração, comparando o desempenho dos algoritmos K-Means, Fuzzy CMeans (FCM) e Mapas Auto-Organizáveis (SOM) por meio de algumas métricas: soma dos quadrados dentro de clusters (SSW), soma dos quadrados entre clusters (SSB), índice silhueta (SI) e validação cruzada K-Fold com pontuação de homogeneidade. Para o parâmetro de inclinação os algoritmos de ML trouxeram uma melhor resposta em geral quando comparado ao método de classificação por regras chamado GTA, que não é um algoritmo de aprendizado de máquina, quando analisando as métricas apresentadas. Dentre os algoritmos de ML implementados, K-Means e Fuzzy C-Means, K-Means é ligeiramente superior para as métricas SSW e SSB, porém o Fuzzy C-Means é melhor nas métricas SI e validação cruzada. Quando é analisado o conjunto dos resultados obtidos, os algoritmos de ML tendem a distribuir mais igualitariamente a população entre os clusters do que a classificação sem aprendizado e a métrica SI comprova isso como uma boa decisão. Os métodos trazidos para este trabalho apresentaram resultados satisfatórios sobre o conjunto de dados, e mostram como a aplicação de ML pode trazer benefícios à mineração de dados. Com isso, conseguimos responder à pergunta "Como os dados históricos de uso podem ajudar uma fabricante de caminhões a melhorar o desenvolvimento de produtos e o consumo de combustível?". O K-Means é uma boa opção para técnica de agrupamento, enquanto o FCM também se mostrou uma boa técnica, trabalhando bem principalmente com situações de sobreposição. O FCM traz também uma interpretação extra da porcentagem de associação do cluster que pode ajudar os usuários finais a entender ainda mais os dados. Para trabalhos futuros, também podem ser implementados K-Medoids como método alternativo que considera um indivíduo como o centro do cluster. Este trabalho pode ser estendido para outros tipos de conjuntos de dados.