Generador de tweets del presidente Gustavo Petro bajo una perspectiva del procesamiento natural de lenguaje y los modelos de Markov

Cargando...
Miniatura

Fecha

2024-06

Título de la revista

Publicado en

Publicado por

URL de la fuente

Enlace a contenidos multimedia

ISSN de la revista

Título del volumen

Resumen

El propósito de este artículo consiste en generar tweets que simulan el estilo y los temas abordados por Gustavo Petro durante su primer año de mandato presidencial. Para este cometido, se creó un modelo de Markov de segundo orden que utiliza bi-gramas para generar tweets, es decir, que la siguiente palabra del tweet generado está sujeta a las probabilidades de las dos palabras anteriores y al diccionario de palabras únicas con las que se entrenó el modelo. Así pues, el generador de texto es entrenado con los tweets escritos por Gustavo Petro en el periodo 2022-08-07 a 2023-08-07 y va a ser evaluado con distintos clasificadores binarios para poder encontrar el mejor modelo que permita detectar, con cierto grado de confianza, un tweet real del presidente. De esta manera, la metodología propuesta utiliza técnicas y algoritmos del Procesamiento Natural de Lenguaje (NLP) y de machine learning para construir una herramienta más confiable que la percepción o subjetividad, que tiene una persona, al leer un tweet y tratar de reconocer su veracidad.

Descripción

Abstract

The purpose of this article is to generate tweets that simulate the style and topics addressed by Gustavo Petro during his first year of presidency. For this purpose, a second-order Markov model, that uses bigrams, was created to generate tweets. This means that the next word of the generated tweet is subject to the probabilities of the two previous words and the dictionary of unique words with which the model was trained. Thus, the text generator is trained with the tweets written by Gustavo Petro in the period 2022-08-07 to 2023-08-07 and will be evaluated with different binary classifiers to find a model that allows detecting, with certain degree of confidence, a real tweet written by the president. In this way, the proposed methodology uses Natural Language Processing (NLP) and machine learning techniques and algorithms to build a more reliable tool than the subjectivity that a person has when reading a tweet and trying to recognize its veracity.

Palabras clave

Generación de texto, Modelo de Markov, Gustavo Petro, Procesamiento natural de lenguaje, Tweet

Keywords

Text generation, Markov model, Gustavo Petro, Natural language processing, Tweet

Temáticas

Citación