Modelo K vecinos más cercanos para optimizar la clasificación de datos según el índice de la calidad del agua de la cuenca superior de la ciudad de Huarmey

Thumbnail Image

Date

2025

Journal Title

Journal ISSN

Volume Title

Publisher

Universidad Nacional Mayor de San Marcos

Abstract

La calidad del agua en la cuenca del río Huarmey enfrenta desafíos significativos debido a la contaminación por metales pesados y parámetros fisicoquímicos que superan los estándares de calidad ambiental del agua en Perú. Tradicionalmente, la evaluación del Índice de Calidad de Agua (ICA) se realiza mediante fórmulas y macros de Excel, lo que implica largos tiempos de procesamiento, alta propensión a errores y limitaciones frente a grandes volúmenes de datos. La presente investigación propone la implementación de un modelo de clasificación basado en el algoritmo K-vecinos más cercanos (KNN) para optimizar la categorización de muestras de agua en las categorías de Consumo Humano (1-A2) y Bebida Animal (3-D2), conforme al ICA Perú. Además, se comparó su desempeño con los algoritmos Support Vector Machine (SVM) y Random Forest (RF), aplicando normalización Min-Max, validación cruzada 5-fold y ajuste de hiperparámetros. Los resultados demostraron que KNN alcanzó una precisión (accuracy) del 95.2%, un F1-Score de 0.94 y un coeficiente de determinación (R²) de 0.91, superando a SVM (accuracy 91.4%, F1-Score 0.89, R² 0.85) y Random Forest (accuracy 93.7%, F1-Score 0.92, R² 0.88). Estas métricas validan la efectividad y robustez de KNN en la clasificación multivariable de parámetros fisicoquímicos. La automatización del proceso permitió disminuir los tiempos de clasificación y reducir significativamente los errores en el cálculo del ICA, lo que beneficia la toma de decisiones de la gestión de los recursos hídricos de la cuenca de Huarmey. Este algoritmo de clasificación contribuye al fortalecimiento de las herramientas de monitoreo ambiental y representa un aporte relevante para optimizar la gestión de los recursos hídricos en contextos similares.

Description

Keywords

Calidad de agua, Calidad ambiental - Agua, Machine Learning

Citation

Pajuelo, J. (2025). Modelo K vecinos más cercanos para optimizar la clasificación de datos según el índice de la calidad del agua de la cuenca superior de la ciudad de Huarmey. [Tesis de pregrado, Universidad Nacional Mayor de San Marcos, Facultad de Ingeniería de Sistemas e Informática, Escuela Profesional de Ingeniería de Sistemas]. Repositorio institucional Cybertesis UNMSM.