Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias

Bastidas Rodríguez, Angie Lorena

Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias

dc.contributor.advisor	Ramos Montaña, Jesús David
dc.contributor.author	Bastidas Rodríguez, Angie Lorena
dc.date.accessioned	2023-12-15T17:31:23Z
dc.date.available	2023-12-15T17:31:23Z
dc.date.issued	2023
dc.description.abstract	En Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo, la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las herramientas de minería de texto para procesar y extraer información de manera automática. Para este trabajo se obtuvieron 71 documentos sobre el diagnóstico de enfermedades coronarias mediante técnicas de Machine Learning en inglés, abarcando el período de 2010 a 2022. De estos documentos se extrajeron metadatos, como el título, autor, palabras clave, año de publicación, revista donde se publicó y resumen (abstract). A estos datos se les aplicaron técnicas de minería de texto y se convirtieron en datos estructurados. Luego, se utilizaron tres métodos diferentes de clustering (Jerárquico, K-Means y DBSCAN), donde se calculó la matriz de términos ponderados mediante TF-IDF y donde la métrica utilizada para medir la similitud entre documentos se realizó a través de la distancia coseno. Además, mediante métricas para la validación de los clústeres, se determinó qué método tiene el mejor rendimiento en la agrupación de los documentos textuales. Considerando las condiciones específicas de los datos, se concluyó que el clustering mediante el método K-Means agrupó los documentos de manera más adecuada, a pesar de ser un método antiguo, sigue siendo efectivo.	spa
dc.description.abstractenglish	In Colombia, coronary heart disease is one of the main causes of death. The use of Machine Learning techniques for early diagnosis has been shown to be valuable. However, the large amount of scientific literature makes its efficient analysis difficult. Therefore, text mining tools are essential to process and extract information automatically. For this work, 71 documents on the diagnosis of coronary heart diseases using Machine Learning techniques in English were obtained, compartmentalizing the period from 2010 to 2022. Metadata were extracted from these documents, such as the title, author, keywords, year of publication, magazine where it was published and summary (abstract). Text mining techniques are applied to this data and it is converted into structured data. Then, three different clustering methods were used (Hierarchical, K-Means and DBSCAN), where the matrix of weighted terms was calculated using TF-IDF and where the metric used to measure the similarity between documents was done through the cosine distance. Furthermore, using metrics for cluster validation, we will consider which method has the best performance in grouping textual documents. Considering the specific conditions of the data, it was concluded that clustering using the K-Means method grouped the documents more adequately, despite being an old method, it is still effective.	spa
dc.description.degreelevel	Pregrado	spa
dc.description.degreename	Estadístico	spa
dc.description.sponsorship	Universidad El Bosque	spa
dc.format.mimetype	application/pdf
dc.identifier.instname	instname:Universidad El Bosque	spa
dc.identifier.reponame	reponame:Repositorio Institucional Universidad El Bosque	spa
dc.identifier.repourl	repourl:https://repositorio.unbosque.edu.co
dc.identifier.uri	https://hdl.handle.net/20.500.12495/11792
dc.language.iso	spa	spa
dc.publisher.faculty	Facultad de Ciencias	spa
dc.publisher.grantor	Universidad El Bosque	spa
dc.publisher.program	Estadística	spa
dc.rights	Atribución-NoComercial-CompartirIgual 4.0 Internacional	*
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.rights.local	Acceso abierto	spa
dc.rights.uri	https://creativecommons.org/licenses/by-nc-sa/4.0/	*
dc.subject	Minería de texto	spa
dc.subject	Clustering de texto	spa
dc.subject	Clustering Jerárquico	spa
dc.subject	Clustering K-Means	spa
dc.subject	Clustering DBSCAN	spa
dc.subject	Machine Learning	spa
dc.subject	Enfermedades coronarias	spa
dc.subject	Diagnostico	spa
dc.subject.ddc	519.5
dc.subject.keywords	Text mining	spa
dc.subject.keywords	Text clustering	spa
dc.subject.keywords	Hierarchical clustering	spa
dc.subject.keywords	K-Means clustering	spa
dc.subject.keywords	DBSCAN clustering	spa
dc.subject.keywords	Machine Learning	spa
dc.subject.keywords	Coronary heart diseases	spa
dc.subject.keywords	Diagnosis	spa
dc.title	Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias	spa
dc.title.translated	Construction of clusters of scientific articles in English (2010 - 2022) related to Machine Learning techniques in the diagnosis of coronary heart diseases	spa
dc.type.coar	https://purl.org/coar/resource_type/c_7a1f
dc.type.coarversion	https://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.driver	info:eu-repo/semantics/bachelorThesis
dc.type.hasversion	info:eu-repo/semantics/acceptedVersion
dc.type.local	Tesis/Trabajo de grado - Monografía - Pregrado	spa

Archivos

Bloque original

Mostrando 1 - 1 de 1

Nombre:: Trabajo de grado.pdf
Tamaño:: 1.9 MB
Formato:: Adobe Portable Document Format
Descripción:: Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias

Descargar

Bloque de licencias

Mostrando 1 - 1 de 1

Nombre:: license.txt
Tamaño:: 1.95 KB
Formato:: Item-specific license agreed upon to submission
Descripción:

Descargar

Colecciones

Estadística

Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias

Archivos

Bloque original

Bloque de licencias

Colecciones

Universidad El Bosque

Instalaciones Bogotá

Instalaciones Chía