Desarrollo de un modelo multimodal de interpretación de imágenes de citologías cérvicouterinas convencionales

Cargando...
Miniatura

Fecha

Título de la revista

Publicado en

Publicado por

URL de la fuente

Enlace a contenidos multimedia

ISSN de la revista

Título del volumen

Resumen

La citología cérvicouterina continúa siendo una herramienta fundamental para la detección temprana de lesiones precursoras del cáncer de cuello uterino, no obstante, su interpretación manual enfrenta retos derivados de la subjetividad diagnóstica y de la variabilidad interobservador. En este estudio, se propone la adaptación de un modelo visión-lenguaje (VLM) para la interpretación de imágenes de citología cérvicouterina convencional, integrando descripciones formuladas según el Sistema Bethesda y un conjunto de datos primario compuesto por imágenes crudas. El proceso contempló la construcción de un dataset estructurado que combina recortes de regiones de interés con descripciones citológicas enriquecidas mediante un LLM externo. Posteriormente, se definió la arquitectura BLIP-2 considerando el estado del arte y se exploraron diversas configuraciones, las cuales fueron entrenadas y evaluadas. Este proceso se complementó con una validación experta orientada a examinar la alineación semántica y la coherencia citomorfológica de las descripciones generadas. Los hallazgos muestran un sistema preliminar que, aunque limitado, sienta bases metodológicas claras para el desarrollo de aplicaciones del aprendizaje profundo en la citología cervicouterina convencional.

Descripción

Abstract

Cervicouterine cytology remains a fundamental tool for the early detection of precursor lesions of cervical cancer; however, its manual interpretation faces challenges stemming from diagnostic subjectivity and interobserver variability. In this study, we propose the adaptation of a vision– language model (VLM) for the interpretation of cervicouterine cytology images, integrating descriptions formulated according to the Bethesda System and a wild dataset composed of raw images. The process involved building a structured dataset that combines region of interest crops with cytological descriptions enriched through an external LLM. Subsequently, the BLIP-2 architecture was defined based on the state of the art, and several configurations were explored, trained, and evaluated. This process was complemented by an expert validation aimed at examining the semantic alignment and cytomorphological coherence of the generated descriptions. The findings reveal a preliminary system that, although limited, establishes clear methodological foundations for the development of deep-learning applications in conventional cervicouterine cytology.

Palabras clave

Modelos visión-lenguaje, BLIP-2, Aprendizaje profundo, Descripción automática de imágenes médicas, Citologías cérvicouterinas convencional, Cáncer de cuello uterino, Sistema Bethesda

Temáticas

Citación

Aprobación

Revisión

Complementado por

Referenciado por