Extracción automática de texto manuscrito en historias clínicas veterinarias mediante modelos de lenguaje grandes (LLMs)
Cargando...
Archivos
Fecha
Título de la revista
Publicado en
Publicado por
URL de la fuente
Enlace a contenidos multimedia
ISSN de la revista
Título del volumen
Resumen
Este proyecto presenta una aplicación web desarrollada para extraer texto manuscrito a partir de imágenes de historias clínicas veterinarias. Se construye un sistema eficiente y confiable que permite interpretar historias clínicas escaneadas y transformarlas en texto estructurado. Durante el proceso de desarrollo se evaluaron distintos modelos de lenguaje de gran tamaño (LLMs), incluyendo LLaVA 1.6, Qwen2-VL, MiniCPM-V, los cuales presentaron dificultades en la comprensión del contexto y bajo rendimiento en la interpretación de la información de la historia clínica. Finalmente, se optó por utilizar el modelo GPT-4o de OpenAI, ya que obtuvo los mejores resultados ofreciendo una mayor precisión en la interpretación del contenido y un mejor entendimiento de instrucciones. Para mejorar el rendimiento del modelo, se aplicaron estrategias como la división de las imágenes en dos secciones, aprovechando así la resolución completa de los documentos. Aunque se consideró realizar un proceso de fine-tuning, las restricciones legales y éticas asociadas al manejo de documentos privados impidieron avanzar en esta etapa. Los resultados obtenidos muestran un nivel de precisión aceptable y sientan las bases para futuras mejoras mediante técnicas de entrenamiento más especializadas.
Descripción
Abstract
This project presents a web application developed to extract handwritten text from images of veterinary clinical records. An efficient and reliable system was built to interpret scanned medical histories and transform them into structured text. During the development process, various large language models (LLMs) were evaluated, including LLaVA 1.6, Qwen2-VL, and MiniCPM-V, which showed difficulties in contextual understanding and low performance in interpreting the information contained in the clinical records. Ultimately, OpenAI’s GPT-4o model was chosen, as it delivered the best results by offering greater accuracy in content interpretation and better understanding of instructions. To improve the model’s performance, strategies such as splitting images into two sections were applied, thus leveraging the full resolution of the documents. Although a fine-tuning process was considered, legal and ethical restrictions related to handling private documents prevented progress in this stage. The results obtained show an acceptable level of accuracy and lay the groundwork for future improvements through more specialized training techniques.
Palabras clave
Modelos de lenguaje grandes, extracción de texto, historias clínicas veterinarias
