Desarrollo de un modelo multimodal de interpretación de imágenes de citologías cérvicouterinas convencionales
Cargando...
Archivos
Fecha
Título de la revista
Publicado en
Publicado por
URL de la fuente
Enlace a contenidos multimedia
ISSN de la revista
Título del volumen
Resumen
La citología cérvicouterina continúa siendo una herramienta fundamental para la detección temprana de lesiones precursoras del cáncer de cuello uterino, no obstante, su interpretación manual enfrenta retos derivados de la subjetividad diagnóstica y de la variabilidad interobservador. En este estudio, se propone la adaptación de un modelo visión-lenguaje (VLM) para la interpretación de imágenes de citología cérvicouterina convencional, integrando descripciones formuladas según el Sistema Bethesda y un conjunto de datos primario compuesto por imágenes crudas. El proceso contempló la construcción de un dataset estructurado que combina recortes de regiones de interés con descripciones citológicas enriquecidas mediante un LLM externo. Posteriormente, se definió la arquitectura BLIP-2 considerando el estado del arte y se exploraron diversas configuraciones, las cuales fueron entrenadas y evaluadas. Este proceso se complementó con una validación experta orientada a examinar la alineación semántica y la coherencia citomorfológica de las descripciones generadas. Los hallazgos muestran un sistema preliminar que, aunque limitado, sienta bases metodológicas claras para el desarrollo de aplicaciones del aprendizaje profundo en la citología cervicouterina convencional.
Descripción
Abstract
Cervicouterine cytology remains a fundamental tool for the early detection of precursor lesions of cervical cancer; however, its manual interpretation faces challenges stemming from diagnostic subjectivity and interobserver variability. In this study, we propose the adaptation of a vision–
language model (VLM) for the interpretation of cervicouterine cytology images, integrating descriptions formulated according to the Bethesda System and a wild dataset composed of raw images. The process involved building a structured dataset that combines region of interest crops with cytological descriptions enriched through an external LLM. Subsequently, the BLIP-2 architecture was defined based on the state of the art, and several configurations were explored, trained, and evaluated. This process was complemented by an expert validation aimed at examining the semantic alignment and cytomorphological coherence of the generated descriptions. The findings reveal a preliminary system that, although limited, establishes clear methodological foundations for the development of deep-learning applications in conventional cervicouterine cytology.
Palabras clave
Modelos visión-lenguaje, BLIP-2, Aprendizaje profundo, Descripción automática de imágenes médicas, Citologías cérvicouterinas convencional, Cáncer de cuello uterino, Sistema Bethesda
