Uso de modelos de aprendizado supervisionado para classificação da potabilidade da água

Detalhes bibliográficos
Ano de defesa: 2024
Autor(a) principal: PORTO, Wellington Weikamp
Orientador(a): Não Informado pela instituição
Banca de defesa: Não Informado pela instituição
Tipo de documento: Dissertação
Tipo de acesso: Acesso aberto
Idioma: por
Instituição de defesa: Universidade Catolica de Pelotas
Centro de Ciencias Sociais e Tecnologicas
Brasil
UCPel
Mestrado em Engenharia Eletronica e Computacao
Programa de Pós-Graduação: Não Informado pela instituição
Departamento: Não Informado pela instituição
País: Não Informado pela instituição
Palavras-chave em Português:
Link de acesso: http://tede.ucpel.edu.br:8080/jspui/handle/jspui/1030
Resumo: A água potável é crucial para diversos aspectos da vida, influenciando diretamente na saúde, no desenvolvimento socioeconômico e na preservação ambiental. A Organização Mundial da Saúde (OMS) estima que aproximadamente 1 milhão de mortes ocorram anualmente devido a doenças causadas pela ingestão de água contaminada, falta de saneamento e práticas inadequa das de higiene. Para promover a garantia da qualidade da água, a OMS destaca a importância do tratamento e da análise rigorosa, utilizando parâmetros padronizados para determinar sua ade quação para consumo humano. Neste contexto, empregamos um conjunto de dados composto por 3276 amostras, cada uma caracterizada por dez atributos e uma variável de desfecho indi cando a potabilidade da água, obtido no repositório Kaggle. Utilizando técnicas de inteligência artificial, especialmente modelos de aprendizagem supervisionada, visamos classificar a potabi lidade da água. Os modelos desenvolvidos foram treinados com diversos algoritmos, incluindo Naive Bayes (NB), Logistic Regression (LR), Decision Trees (DT), Support Vector Machine (SVM), Random Forest (RF) e Multilayer Perceptron (MLP). A avaliação de desempenho de cada modelo baseou-se em métricas como acurácia, precisão e a AUC. Para manipulação e de senvolvimento dos modelos, empregamos a linguagem Python e suas bibliotecas especializadas em inteligência artificial. Aplicamos técnicas de pré-processamento para lidar com dados faltan tes, outliers, redimensionamento e balanceamento da variável de desfecho. Destacamos ainda que implementamos os modelos utilizando diversas técnicas de pré-processamento de dados, incluindo a aplicação do algoritmo Skewed Chi Squared Kernel (SCSK) nos modelos baseados em SVM. O modelo que obteve o melhor desempenho foi o baseado em SVM, alcançando 87% de acurácia após a aplicação da técnica SCSK, combinada com média aritmética para valores nulos, substituição de fora do padrão pela mediana, normalização dos dados utilizando a téc nica mín-máx e balanceamento dos dados por meio da técnica de sobre amostragem minoritária sintética (SMOTE). Esses resultados demonstram um desempenho eficaz na classificação da potabilidade da água, comparável a outros estudos encontrados na literatura, considerando as limitações inerentes ao conjunto de dados utilizado.