Desarrollo de un modelo de Machine Learning para la clasificación de tipos de dengue de acuerdo a su nivel de severidad: Un estudio de caso de Bucaramanga, Colombia

Resumen

El dengue en Colombia y en la región representa una importante problemática de salud pública, por las condiciones geográficas y sociales que hay en el país, se presentan focos cíclicos de contagio. Los avances en machine learning (ML) y ciencia de datos para la clasificación de pacientes puede representar una reducción de esfuerzos médicos, económicos y humanos para el tratamiento de la enfermedad. El diagnóstico temprano, ofrece conocimiento y seguimiento de la enfermedad. Los datos obtenidos provienen del municipio de Bucaramanga, Santander, uno de los departamentos más afectados por los brotes de dengue. Para lograr el objetivo de construir un clasificador de tipos de dengue se construyen 4 modelos ML: Regresión Logística Regularizada (RL), Random Forest (RF), Maquina de Soporte Vectorial para Clasificación (SVC) y una propuesta de ensamble de estos tres modelos que toma como meta-clasificador al algoritmo de XGBoost. Los resultados muestran como mejor modelo al modelo ensamblado (AUC = 0.9386, Accuracy = 0.936, F1-Score = 0.947), seguido de la Regresión Logística regularizada por norma L2 (AUC = 0.95, Accuracy = 0.871, F1-Score = 0.895), la Máquina de Soporte de Vectorial - Kernel Radial (AUC = 0.984, Accuracy = 0.857, F1-Score = 0.867) y por último, el Random Forest (AUC = 0.94, Accuracy = 0.833, F1-Score = 0.865). Además se encontró que factores como antecedentes familiares por dengue, dolor abdominal, vomito y diarrea presentan una relación causal con el presentar dengue con signos de alarma.

Descripción

Abstract

Dengue in Colombia and in the region represents a major public health problem, due to the geographical and social conditions in the country, there are cyclical outbreaks of contagion. Advances in machine learning (ML) and data science for the classification of patients may represent a reduction of medical, economic and human efforts for the treatment of the disease. Early diagnosis offers knowledge and monitoring of the disease. The data obtained come from the municipality of Bucaramanga, Santander, one of the departments most affected by dengue outbreaks. To achieve the objective of building a classifier of dengue types, 4 ML models are built: Regularized Logistic Regression (RL), Random Forest (RF), Support Vector Classification Machine (SVC) and a proposal for the assembly of these three models that takes the XGBoost algorithm as meta-classifier. The results show that the best model is the ensemble model (AUC = 0.9386, Accuracy = 0.936, F1-Score = 0.947), followed by the Logistic Regression regularized by norm L2 (AUC = 0.95, Accuracy = 0. 871, F1-Score = 0.895), the Support Vector-Radial Kernel Machine (AUC = 0.984, Accuracy = 0.857, F1-Score = 0.867) and lastly, the Random Forest (AUC = 0.94, Accuracy = 0.833, F1-Score = 0.865). It was also found that factors such as family history of dengue, abdominal pain, vomiting and diarrhea had a causal relationship with the presentation of dengue with alarm signs.

Palabras clave

Bioestadística, Machine Learning, Dengue, Clasificación

Keywords

Biostatistics, Machine Learning, Dengue, Classification

Temáticas

Citación

Colecciones