Optimizando la búsqueda semántica en ArXiv: evaluación de modelos LLMs y herramientas de indexación vectorial

Cargando...
Miniatura

Fecha

Título de la revista

Publicado en

Publicado por

URL de la fuente

Enlace a contenidos multimedia

ISSN de la revista

Título del volumen

Resumen

El objetivo del presente artículo es desarrollar un buscador semántico potenciado por modelos de lenguaje de gran escala (LLMs por sus siglas en inglés) que facilite a los investigadores la exploración eficiente y precisa de artículos relevantes en el repositorio de ArXiv. Para ello, se emplean la base de datos vectoriales Weaviate y la librería Faiss, herramientas de búsqueda vectorial que permiten integrar distintas configuraciones y varias opciones de modelos Sentence Transformers, incluyendo una versión optimizada mediante ajuste fino (fine tuning) con datos provenientes del propio ArXiv. Asimismo, se proponen métricas basadas en frecuencia, puntajes de búsqueda y coincidencia de categorías y subcategorías con el propósito de identificar la combinación más efectiva de herramientas para la búsqueda. Como resultado principal, se encuentra que la configuración vectorial de título y resumen acompañada del modelo all-mpnet-base-v2 ofrece la mayor exactitud en categoría (79,6%), lo cual respalda las especificaciones del modelo respecto a su desempeño en tareas de similitud semántica. La solución propuesta no solo establece un marco reproducible para implementar motores de búsqueda semántica en repositorios académicos, sino que también ofrece una guía de procesamiento optimizada para documentos científicos.

Descripción

Abstract

The objective of this article is to develop a semantic search engine powered by large-scale language models (LLMs) that enables researchers to efficiently and precisely explore relevant articles within the ArXiv repository. To this end, the Weaviate vector database and the Faiss library are utilized, both vector search tools that support the integration of various configurations as well as multiple Sentence Transformers models, including a version optimized through fine-tuning with data sourced directly from ArXiv. In addition, metrics based on frequency, search scores, and category and subcategory matching are proposed with the objective of identifying the most effective combinations of tools for search tasks. The main result indicates that the vector configuration combining title and abstract with the all-mpnet-base-v2 model yields the highest category accuracy (79.6%), thus supporting the model’s specifications regarding its performance in semantic similarity tasks. The proposed solution not only establishes a reproducible framework for implementing semantic search engines in academic repositories but also provides an optimized processing guideline for scientific documents.

Palabras clave

Búsqueda Semántica, Modelos de Lenguaje de Gran Escala, Bases de datos, Aprendizaje automático

Temáticas

Citación

Aprobación

Revisión

Complementado por

Referenciado por