Análisis de la mortalidad prematura por enfermedades cardio-cerebrovasculares en Bogotá (2010-2022): enfoque analítico y clasificatorio con Machine Learning

Resumen

La mortalidad prematura por enfermedades cardio-cerebrovasculares representa una carga creciente para los sistemas de salud, especialmente en contextos urbanos de América Latina. Este estudio analiza la mortalidad registrada en Bogotá entre 2010 y 2022, aplicando análisis descriptivos, series de tiempo y modelos de aprendizaje automático. Se incluyen defunciones en personas mayores de 30 años, clasificadas como prematuras o no prematuras según el umbral de 75 años. Los modelos supervisados se entrenaron con variables sociodemográficas, de aseguramiento y causa básica de muerte, evaluando su desempeño mediante métricas estándar. El modelo Random Forest obtuvo el mejor rendimiento general, destacando el nivel educativo, el régimen de aseguramiento y el sitio de defunción como principales predictores. Además, se desarrollaron modelos por agrupación diagnóstica para enfermedades isquémicas, cerebrovasculares, hipertensivas e insuficiencia cardíaca, evidenciando diferencias en los patrones de clasificación. El análisis de tendencias mostró un incremento sostenido de la mortalidad prematura, acentuado durante el periodo de pandemia. Los resultados refuerzan el papel de los determinantes sociales en la ocurrencia de muertes prematuras de causa cardiovascular y evidencian el potencial del aprendizaje automático como herramienta de apoyo para la toma de decisiones en salud pública.

Descripción

Abstract

Premature mortality from cardio-cerebrovascular diseases represents an increasing burden on health systems, particularly in urban contexts across Latin America. This study analyzes mortality records in Bogotá from 2010-2022 via descriptive analysis, time series, and machine learning models. It includes deaths among individuals aged over 30, classified as premature or nonpremature based on a 75-year threshold. Supervised models were trained using sociodemographic, insurance-related, and underlying cause-of-death variables, and their performance was evaluated via standard metrics. The random forest model showed the best overall performance, with educational level, insurance scheme, and place of death emerging as the main predictors. Additionally, separate models were developed for diagnostic groups (ischemic, cerebrovascular, hypertensive, and heart failure) and revealed differences in classification patterns. The model for ischemic heart disease achieved the highest AUC (0.69), followed by cerebrovascular (0.65), hypertensive (0.63), and heart failure (0.61). SHAP analysis highlighted the differential contribution of sociodemographic variables such as place of death, sex, educational level, and insurance scheme, with distinct patterns observed across causes of death. Trend analysis revealed a sustained increase in premature mortality, which increased during the pandemic period. These findings underscore the role of social determinants in premature cardiovascular deaths and highlight the potential of machine learning as a decision-support tool for public health.

Palabras clave

Mortalidad prematura, Enfermedades cardio-cerebrovasculares, Aprendizaje automático, Determinantes sociales, Salud pública, Modelos predictivos

Temáticas

Citación

Aprobación

Revisión

Complementado por

Referenciado por