Integración de biomarcadores predictivos en un modelo de machine learning para la estimación de la respuesta farmacológica en pacientes con cáncer de mama triple negativo
Cargando...
Archivos
Fecha
Autores
Título de la revista
Publicado en
Publicado por
URL de la fuente
Enlace a contenidos multimedia
ISSN de la revista
Título del volumen
Resumen
Introducción: El cáncer de mama triple negativo (CMTN), uno de los tipos más agresivos de cáncer de mama, se caracteriza por una presentación clínica que incluye una alta tasa de proliferación celular y una elevada susceptibilidad a la metástasis. Esta combinación convierte a esta patología en una enfermedad de mal pronóstico, con tratamiento complejo y difícil manejo clínico. Materiales y métodos: Se obtuvieron datos de expresión génica de pacientes con CMTN tratados con quimioterapia basada en taxanos y antraciclinas a partir de la base de datos GEO. Estos datos fueron pre procesados y analizados para identificar genes diferencialmente expresados mediante un modelo limma con soporte de remuestreo bootstrap. A partir de esto, se derivó una firma génica de 29 genes, la cual fue validada utilizando un conjunto de datos integrados y normalizados con fRMA. Posteriormente, se entrenó y evaluó un clasificador Random Forest utilizando la biblioteca scikit-learn. Resultados: Del análisis integrado de los conjuntos de datos de GEO, se identificó una firma de 29 genes, que incluye 22 genes diferencialmente expresados y 7 biomarcadores previamente reportados en la literatura. El modelo Random Forest entrenado con el conjunto combinado de datos (n=232) demostró un sólido desempeño predictivo (AUROC = 0.92; AUPRC = 0.87; Exactitud = 0.84). Discusión: Los biomarcadores clave identificados están relacionados con la vía PI3K-Akt y con mecanismos conocidos de resistencia. El uso de una firma génica de 29 genes podría permitir el desarrollo de pruebas diagnósticas más rápidas, accesibles y rentables, especialmente valiosas en contextos con recursos limitados o cuando es crucial tomar decisiones clínicas oportunas. Conclusiones: Este enfoque respalda la viabilidad clínica de la predicción basada en transcriptómica y subraya la necesidad de realizar validaciones externas adicionales.
Descripción
Abstract
Introduction: Triple-negative breast cancer (TNBC), one of the most aggressive types of breast cancer, is characterized by a clinical presentation that includes a high rate of cellular proliferation and a high susceptibility to metastasis. This, together, makes it a pathology with a poor prognosis, difficult treatment, and clinical management. Materials and methods: Gene expression data from TNBC patients treated with taxane- and anthracycline-based chemotherapy were retrieved from GEO, preprocessed, and analyzed to identify differentially expressed genes via bootstrap-supported limma modeling. A 29-gene signature was derived and validated using an integrated dataset normalized with fRMA. A Random Forest classifier was trained and evaluated using scikit-learn library. Results: From the integrated analysis of GEO datasets, a 29-gene signature—including 22 DEGs and 7 literature-based biomarkers—was identified. A Random Forest model trained on the combined dataset (n=232) achieved strong predictive performance (AUROC = 0.92; AUPRC = 0.87; Accuracy = 0.84). Discussion: Key identified biomarkers are linked to the PI3K-Akt pathway and known resistance mechanisms. Using a 29-gene signature may enable the development of faster, more accessible, and cost-effective diagnostic tests, especially value. in resource-limited settings or when timely clinical decisions are critical. Conclusions: This approach supports the clinical feasibility of transcriptomic-based prediction and underscores the need for external validation.
Palabras clave
Cáncer de mama triple negativo, Aprendizaje automático, Random Forest
