Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias

dc.contributor.advisorRamos Montaña, Jesús David
dc.contributor.authorBastidas Rodríguez, Angie Lorena
dc.date.accessioned2023-12-15T17:31:23Z
dc.date.available2023-12-15T17:31:23Z
dc.date.issued2023
dc.description.abstractEn Colombia, las enfermedades coronarias son una de las principales causas de muerte. El uso de técnicas de Machine Learning para diagnóstico temprano se ha mostrado ser valioso. Sin embargo, la gran cantidad de literatura científica dificulta su análisis eficiente. Por ello, son fundamentales las herramientas de minería de texto para procesar y extraer información de manera automática. Para este trabajo se obtuvieron 71 documentos sobre el diagnóstico de enfermedades coronarias mediante técnicas de Machine Learning en inglés, abarcando el período de 2010 a 2022. De estos documentos se extrajeron metadatos, como el título, autor, palabras clave, año de publicación, revista donde se publicó y resumen (abstract). A estos datos se les aplicaron técnicas de minería de texto y se convirtieron en datos estructurados. Luego, se utilizaron tres métodos diferentes de clustering (Jerárquico, K-Means y DBSCAN), donde se calculó la matriz de términos ponderados mediante TF-IDF y donde la métrica utilizada para medir la similitud entre documentos se realizó a través de la distancia coseno. Además, mediante métricas para la validación de los clústeres, se determinó qué método tiene el mejor rendimiento en la agrupación de los documentos textuales. Considerando las condiciones específicas de los datos, se concluyó que el clustering mediante el método K-Means agrupó los documentos de manera más adecuada, a pesar de ser un método antiguo, sigue siendo efectivo.spa
dc.description.abstractenglishIn Colombia, coronary heart disease is one of the main causes of death. The use of Machine Learning techniques for early diagnosis has been shown to be valuable. However, the large amount of scientific literature makes its efficient analysis difficult. Therefore, text mining tools are essential to process and extract information automatically. For this work, 71 documents on the diagnosis of coronary heart diseases using Machine Learning techniques in English were obtained, compartmentalizing the period from 2010 to 2022. Metadata were extracted from these documents, such as the title, author, keywords, year of publication, magazine where it was published and summary (abstract). Text mining techniques are applied to this data and it is converted into structured data. Then, three different clustering methods were used (Hierarchical, K-Means and DBSCAN), where the matrix of weighted terms was calculated using TF-IDF and where the metric used to measure the similarity between documents was done through the cosine distance. Furthermore, using metrics for cluster validation, we will consider which method has the best performance in grouping textual documents. Considering the specific conditions of the data, it was concluded that clustering using the K-Means method grouped the documents more adequately, despite being an old method, it is still effective.spa
dc.description.degreelevelPregradospa
dc.description.degreenameEstadísticospa
dc.description.sponsorshipUniversidad El Bosquespa
dc.format.mimetypeapplication/pdf
dc.identifier.instnameinstname:Universidad El Bosquespa
dc.identifier.reponamereponame:Repositorio Institucional Universidad El Bosquespa
dc.identifier.repourlrepourl:https://repositorio.unbosque.edu.co
dc.identifier.urihttps://hdl.handle.net/20.500.12495/11792
dc.language.isospaspa
dc.publisher.facultyFacultad de Cienciasspa
dc.publisher.grantorUniversidad El Bosquespa
dc.publisher.programEstadísticaspa
dc.rightsAtribución-NoComercial-CompartirIgual 4.0 Internacional*
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.rights.localAcceso abiertospa
dc.rights.urihttps://creativecommons.org/licenses/by-nc-sa/4.0/*
dc.subjectMinería de textospa
dc.subjectClustering de textospa
dc.subjectClustering Jerárquicospa
dc.subjectClustering K-Meansspa
dc.subjectClustering DBSCANspa
dc.subjectMachine Learningspa
dc.subjectEnfermedades coronariasspa
dc.subjectDiagnosticospa
dc.subject.ddc519.5
dc.subject.keywordsText miningspa
dc.subject.keywordsText clusteringspa
dc.subject.keywordsHierarchical clusteringspa
dc.subject.keywordsK-Means clusteringspa
dc.subject.keywordsDBSCAN clusteringspa
dc.subject.keywordsMachine Learningspa
dc.subject.keywordsCoronary heart diseasesspa
dc.subject.keywordsDiagnosisspa
dc.titleConstrucción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronariasspa
dc.title.translatedConstruction of clusters of scientific articles in English (2010 - 2022) related to Machine Learning techniques in the diagnosis of coronary heart diseasesspa
dc.type.coarhttps://purl.org/coar/resource_type/c_7a1f
dc.type.coarversionhttps://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.driverinfo:eu-repo/semantics/bachelorThesis
dc.type.hasversioninfo:eu-repo/semantics/acceptedVersion
dc.type.localTesis/Trabajo de grado - Monografía - Pregradospa

Archivos

Bloque original
Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
Trabajo de grado.pdf
Tamaño:
1.9 MB
Formato:
Adobe Portable Document Format
Descripción:
Construcción de clústeres de artículos científicos en inglés (2010 - 2022) relacionados con técnicas de Machine Learning en el diagnóstico de enfermedades coronarias
Bloque de licencias
Mostrando 1 - 1 de 1
No hay miniatura disponible
Nombre:
license.txt
Tamaño:
1.95 KB
Formato:
Item-specific license agreed upon to submission
Descripción:

Colecciones