Optimización del análisis de noticias en el sector turismo en Colombia: Aplicación de modelos de lenguaje de gran tamaño para decisiones estratégicas (2023-2024)
No hay miniatura disponible
Archivos
Fecha
2024-06
Título de la revista
Publicado en
Publicado por
URL de la fuente
Enlace a contenidos multimedia
ISSN de la revista
Título del volumen
Resumen
El turismo en Colombia ha experimentado un notable crecimiento a lo largo de los años, impulsado por las tendencias y destinos populares que atraen a viajeros de todo el mundo. Este dinamismo ha generado un volumen creciente de información, lo que ha suscitado la necesidad de desarrollar un modelo clasificador para identificar el tono positivo o negativo de las noticias de medios de prensa. Utilizando los avances en Deep Learning y el Procesamiento del Lenguaje Natural, se implementó un modelo de clasificación de texto basado en Modelos de Lenguaje de Gran Tamaño (LLM).Para este trabajo, se seleccionaron varios modelos LLM preentrenados de propósito general, optimizados mediante fine tuning de parámetros eficientes (PEFT) usando los adaptadores LoRA, AdaLoRA y IA3. Toda la configuración se hizo en el entorno de Ludwig, reconocido por su eficiencia y fácil configuración a través de YAML. Se encontró que DistilBERT multilingüe logró el mayor rendimiento con el adaptador LoRA, con una accuracy del 87.88% y un ROC AUC del 92.05%. Este enfoque ha permitido una afinación efectiva del modelo para clasificar noticias dentro del ámbito turístico colombiano, un paso crucial para gestionar y analizar grandes volúmenes de datos de manera ágil y optimizada.
Descripción
Abstract
Tourism in Colombia has experienced remarkable growth over the years, driven by trends and popular destinations that attract travelers from all over the world. This dynamism has generated an increasing volume of information, prompting the need to develop a classifier model to identify the positive or negative tone of news media reports. Using advances in Deep Learning and Natural Language Processing, a text classification model based on Large Language Models (LLM) was implemented.For this work, several pre-trained general purpose LLM models were selected, optimized through fine tuning of efficient parameters (PEFT) using LoRA, AdaLoRA and IA3 adapters. All configuration was done in the Ludwig environment, recognized for its efficiency and easy configuration via YAML. It was found that multilingual DistilBERT achieved the highest performance with the LoRA adapter, with an accuracy of 87.88% and an AUC ROC of 92.05%. This approach has allowed an effective tuning of the model to classify news within the Colombian tourism domain, a crucial step to manage and analyze large volumes of data in an agile and optimized way.
Palabras clave
Modelos de lenguaje de gran tamaño, Ajuste fino, Ajuste de parámetros eficiente, PEFT
Keywords
Large language models, Fine tuning, Parameter efficient tuning, PEFT