Predicción del riesgo individual de cáncer cervicouterino mediante un sistema de puntajes scorecard basado en regresión logística regularizada

Cargando...
Miniatura

Fecha

Título de la revista

Publicado en

Publicado por

URL de la fuente

Enlace a contenidos multimedia

ISSN de la revista

Título del volumen

Resumen

Objetivo: Personalizar el riesgo individual de cáncer cervicouterino mediante la metodología scorecard basada en regresión logística regularizada. Metodología: los datos provienen del Hospital Universitario de Caracas. Se realizaron análisis exploratorios, imputación de datos faltantes y balanceo de clases de la variable dependiente Biopsia utilizando el método ROSE, la selección de variables empleó dos métodos: Ridge y Lasso, las variables numéricas fueron discretizadas mediante binning supervisado, posteriormente se codificaron todas las variables utilizado Weight of Evidence. Se realizó un modelo de regresión logística tipo Ridge con el conjunto de entrenamiento y se validó con el conjunto de prueba. Resultados: el conjunto de entrenamiento incluyó 25.91% (n=178) casos positivos y 74.09% (n=509) casos negativos. En la validación con los datos de prueba, el modelo presentó un desempeño predictivo favorable: AUC: 0.99, sensibilidad de 0.90, especificidad de 0.98 y una exactitud de 0.98. Posterior se generó un puntaje scorecard que presenta puntuaciones parciales y globales, que permiten estimar el riesgo. Conclusión: scorecard es una metodología prometedora para estimar el riesgo de cáncer cervicouterino, facilitando la priorización de personas con perfiles de riesgo alto y la toma de decisiones clínicas especialmente en contextos con recursos limitados.

Descripción

Abstract

Background: Cervical cancer is a public health problem in Latin America due to its high prevalence and mortality. Risk factors such as HPV infection, number of sexual partners, and socioeconomic factors are associated with its occurrence. Objective: To estimate the individual risk of cervical cancer using the scorecard methodology based on regularized logistic regression. Methodology: the database come from the University Hospital of Caracas. Exploratory analyses, imputation of missing data and class balancing of the dependent variable Biopsy were performed. Variable selection used two methods: Ridge and Lasso. Numerical variables were discretized using supervised binning, and subsequently all variables were coded using Weight of Evidence. A Ridge-type logistic regression model was performed with the training set and validated with the test set. Results: the training set included 25.91% (n=178) positive cases and 74.09% (n=509) negative cases. In validation on test data, the model showed favorable predictive performance: AUC: 0.99, sensitivity of 0.90, specificity of 0.98, and accuracy of 0.98. A scorecard was subsequently generated, presenting partial and overall scores, which allow risk estimation. Conclusion: The scorecard is a promising methodology for estimating cervical cancer risk, facilitating the prioritization of individuals with high-risk profiles and clinical decision-making, especially in resource-limited settings.

Palabras clave

Neoplasias de cuello uterino, Factores de riesgo, Modelos logísticos, Modelos de aprendizaje predictivo, Scorecard estadístico, Estadística médica

Temáticas

Citación

Aprobación

Revisión

Complementado por

Referenciado por