Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias

Bastidas Rodríguez, Angie Lorena

Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias

Archivos

Trabajo de grado.pdf (1.9 MB)

Fecha

2023

Autores

Bastidas Rodríguez, Angie Lorena

URI

https://hdl.handle.net/20.500.12495/11792

Página completa del ítem

Resumen

En Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo, la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las herramientas de minería de texto para procesar y extraer información de manera automática. Para este trabajo se obtuvieron 71 documentos sobre el diagnóstico de enfermedades coronarias mediante técnicas de Machine Learning en inglés, abarcando el período de 2010 a 2022. De estos documentos se extrajeron metadatos, como el título, autor, palabras clave, año de publicación, revista donde se publicó y resumen (abstract). A estos datos se les aplicaron técnicas de minería de texto y se convirtieron en datos estructurados. Luego, se utilizaron tres métodos diferentes de clustering (Jerárquico, K-Means y DBSCAN), donde se calculó la matriz de términos ponderados mediante TF-IDF y donde la métrica utilizada para medir la similitud entre documentos se realizó a través de la distancia coseno. Además, mediante métricas para la validación de los clústeres, se determinó qué método tiene el mejor rendimiento en la agrupación de los documentos textuales. Considerando las condiciones específicas de los datos, se concluyó que el clustering mediante el método K-Means agrupó los documentos de manera más adecuada, a pesar de ser un método antiguo, sigue siendo efectivo.

Abstract

In Colombia, coronary heart disease is one of the main causes of death. The use of Machine Learning techniques for early diagnosis has been shown to be valuable. However, the large amount of scientific literature makes its efficient analysis difficult. Therefore, text mining tools are essential to process and extract information automatically. For this work, 71 documents on the diagnosis of coronary heart diseases using Machine Learning techniques in English were obtained, compartmentalizing the period from 2010 to 2022. Metadata were extracted from these documents, such as the title, author, keywords, year of publication, magazine where it was published and summary (abstract). Text mining techniques are applied to this data and it is converted into structured data. Then, three different clustering methods were used (Hierarchical, K-Means and DBSCAN), where the matrix of weighted terms was calculated using TF-IDF and where the metric used to measure the similarity between documents was done through the cosine distance. Furthermore, using metrics for cluster validation, we will consider which method has the best performance in grouping textual documents. Considering the specific conditions of the data, it was concluded that clustering using the K-Means method grouped the documents more adequately, despite being an old method, it is still effective.

Palabras clave

Minería de texto, Clustering de texto, Clustering Jerárquico, Clustering K-Means, Clustering DBSCAN, Machine Learning, Enfermedades coronarias, Diagnostico

Keywords

Text mining, Text clustering, Hierarchical clustering, K-Means clustering, DBSCAN clustering, Machine Learning, Coronary heart diseases, Diagnosis

Colecciones

Estadística

Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias

Archivos

Fecha

Autores

Título de la revista

Publicado en

Publicado por

URI

URL de la fuente

Enlace a contenidos multimedia

ISSN de la revista

Título del volumen

Resumen

Descripción

Abstract

Palabras clave

Keywords

Temáticas

Citación

Colecciones

Universidad El Bosque

Instalaciones Bogotá

Instalaciones Chía