Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias
Cargando...
Archivos
Fecha
2023
Autores
Título de la revista
Publicado en
Publicado por
URL de la fuente
Enlace a contenidos multimedia
ISSN de la revista
Título del volumen
Resumen
En Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de
técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo,
la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las
herramientas de minería de texto para procesar y extraer información de manera automática. Para
este trabajo se obtuvieron 71 documentos sobre el diagnóstico de enfermedades coronarias
mediante técnicas de Machine Learning en inglés, abarcando el período de 2010 a 2022. De estos
documentos se extrajeron metadatos, como el título, autor, palabras clave, año de publicación,
revista donde se publicó y resumen (abstract). A estos datos se les aplicaron técnicas de minería de
texto y se convirtieron en datos estructurados. Luego, se utilizaron tres métodos diferentes de
clustering (Jerárquico, K-Means y DBSCAN), donde se calculó la matriz de términos ponderados
mediante TF-IDF y donde la métrica utilizada para medir la similitud entre documentos se realizó a
través de la distancia coseno. Además, mediante métricas para la validación de los clústeres, se
determinó qué método tiene el mejor rendimiento en la agrupación de los documentos textuales.
Considerando las condiciones específicas de los datos, se concluyó que el clustering mediante el
método K-Means agrupó los documentos de manera más adecuada, a pesar de ser un método
antiguo, sigue siendo efectivo.
Descripción
Abstract
In Colombia, coronary heart disease is one of the main causes of death. The use of Machine Learning
techniques for early diagnosis has been shown to be valuable. However, the large amount of
scientific literature makes its efficient analysis difficult. Therefore, text mining tools are essential to
process and extract information automatically. For this work, 71 documents on the diagnosis of
coronary heart diseases using Machine Learning techniques in English were obtained,
compartmentalizing the period from 2010 to 2022. Metadata were extracted from these documents,
such as the title, author, keywords, year of publication, magazine where it was published and
summary (abstract). Text mining techniques are applied to this data and it is converted into
structured data. Then, three different clustering methods were used (Hierarchical, K-Means and
DBSCAN), where the matrix of weighted terms was calculated using TF-IDF and where the metric
used to measure the similarity between documents was done through the cosine distance.
Furthermore, using metrics for cluster validation, we will consider which method has the best
performance in grouping textual documents. Considering the specific conditions of the data, it was
concluded that clustering using the K-Means method grouped the documents more adequately,
despite being an old method, it is still effective.
Palabras clave
Minería de texto, Clustering de texto, Clustering Jerárquico, Clustering K-Means, Clustering DBSCAN, Machine Learning, Enfermedades coronarias, Diagnostico
Keywords
Text mining, Text clustering, Hierarchical clustering, K-Means clustering, DBSCAN clustering, Machine Learning, Coronary heart diseases, Diagnosis