Uso de modelos de aprendizado supervisionado para classificação da potabilidade da água
Ano de defesa: | 2024 |
---|---|
Autor(a) principal: | |
Orientador(a): | |
Banca de defesa: | |
Tipo de documento: | Dissertação |
Tipo de acesso: | Acesso aberto |
Idioma: | por |
Instituição de defesa: |
Universidade Catolica de Pelotas
Centro de Ciencias Sociais e Tecnologicas Brasil UCPel Mestrado em Engenharia Eletronica e Computacao |
Programa de Pós-Graduação: |
Não Informado pela instituição
|
Departamento: |
Não Informado pela instituição
|
País: |
Não Informado pela instituição
|
Palavras-chave em Português: | |
Link de acesso: | http://tede.ucpel.edu.br:8080/jspui/handle/jspui/1030 |
Resumo: | A água potável é crucial para diversos aspectos da vida, influenciando diretamente na saúde, no desenvolvimento socioeconômico e na preservação ambiental. A Organização Mundial da Saúde (OMS) estima que aproximadamente 1 milhão de mortes ocorram anualmente devido a doenças causadas pela ingestão de água contaminada, falta de saneamento e práticas inadequa das de higiene. Para promover a garantia da qualidade da água, a OMS destaca a importância do tratamento e da análise rigorosa, utilizando parâmetros padronizados para determinar sua ade quação para consumo humano. Neste contexto, empregamos um conjunto de dados composto por 3276 amostras, cada uma caracterizada por dez atributos e uma variável de desfecho indi cando a potabilidade da água, obtido no repositório Kaggle. Utilizando técnicas de inteligência artificial, especialmente modelos de aprendizagem supervisionada, visamos classificar a potabi lidade da água. Os modelos desenvolvidos foram treinados com diversos algoritmos, incluindo Naive Bayes (NB), Logistic Regression (LR), Decision Trees (DT), Support Vector Machine (SVM), Random Forest (RF) e Multilayer Perceptron (MLP). A avaliação de desempenho de cada modelo baseou-se em métricas como acurácia, precisão e a AUC. Para manipulação e de senvolvimento dos modelos, empregamos a linguagem Python e suas bibliotecas especializadas em inteligência artificial. Aplicamos técnicas de pré-processamento para lidar com dados faltan tes, outliers, redimensionamento e balanceamento da variável de desfecho. Destacamos ainda que implementamos os modelos utilizando diversas técnicas de pré-processamento de dados, incluindo a aplicação do algoritmo Skewed Chi Squared Kernel (SCSK) nos modelos baseados em SVM. O modelo que obteve o melhor desempenho foi o baseado em SVM, alcançando 87% de acurácia após a aplicação da técnica SCSK, combinada com média aritmética para valores nulos, substituição de fora do padrão pela mediana, normalização dos dados utilizando a téc nica mín-máx e balanceamento dos dados por meio da técnica de sobre amostragem minoritária sintética (SMOTE). Esses resultados demonstram um desempenho eficaz na classificação da potabilidade da água, comparável a outros estudos encontrados na literatura, considerando as limitações inerentes ao conjunto de dados utilizado. |