Opiniones en Twitter sobre la deforestación en el Amazonas del 2010 al 2022: Un análisis de sentimientos con redes neuronales

Resumen

La deforestación en el Amazonas es una de las grandes problemáticas medioambientales de los últimos tiempos, por esta razón es de gran importancia conocer la opinión de las personas frente a este tema, por tal motivo en este trabajo de investigación se decidió realizar un análisis de sentimientos sobre la deforestación en el Amazonas, utilizando como insumo las opiniones publicadas por los usuarios de Twitter hispanohablantes para un periodo de estudio de enero de 2010 a septiembre de 2022. Para la extracción de datos se conectó mediante un API Twitter con Python y se extrajeron 46.596 datos, los cuales pasaron por fase de minería de texto y etiquetados mediante librerías de Python en tres polaridades o sentimientos asociados negativo, neutro y positivo, esta etapa es de gran importancia debido a que al extraer los datos directamente de Twitter no se cuenta con una columna que indique la polaridad asociada a cada tweet. Así mismo se realiza un análisis exploratorio de los datos para detectar posibles patrones en los datos, revelando que es más frecuente encontrar opiniones textuales sobre la deforestación en el Amazonas en la segunda mitad de cada año y en especial en Agosto de 2019 fecha que coincide con los grandes incendios en el Amazonas. Posteriormente se procede a entrenar y validar un modelo de redes neuronales artificiales LSTM Bidireccional, que permita clasificar de la manera más precisa, a través de un enfoque de análisis de sentimientos los tweets extraídos en distintos grados de opinión. El modelo elegido consta de una arquitectura de 4 capas incluyendo una capa de word embedding, una capa LSTM Bidireccional, una capa estándar con función de activación Relu y una capa de salida con función de activación softmax con una neurona por cada polaridad o sentimiento asociado. Al evaluar el modelo con técnicas como la matriz de confusión, el accuracy, la presicion, la sensibilidad, la especificidad, el F1-score y el coeficiente Kappa de Cohen, dichas medidas arrojaron un ajuste superior a 0.8 lo cual indica un muy ajuste de los datos al modelo de redes neuronales LSTM bidirecional propuesto. Demostrando de esta manera que este tipo de redes neuronales al tener memoria a corto y largo plazo son la alternativa ideal para problemas de análisis de secuencialidad en especial textual.

Descripción

Abstract

Deforestation in the Amazon is one of the biggest environmental problems in latest times, Because of that, it’s really important to have an understanding of people’s opinions about it. For this reason, in this research work, a sentiment analysis was performed regarding deforestation in the Amazon by using Twitter’s opinions of Hispanic speakers as the source, during a period of study between January 2010 and September 2020. To acquire data, Python was used to connect through a Twitter API, and 46.596 posts were collected, the data went through a text mining phase and were labeled using python libraries on three different sentiment categories; negative, neutral, and positive. This phase is of great importance since downloading data directly from Twitter does not have a column showing a polarity for each tweet. Likewise, an exploratory analysis was made to find patterns within the data, showing that it is more likely to find textual opinions about Amazon’s deforestation during the second half of each year, especially on August 2019 which matches with big fires in the Amazon rainforest. Subsequently, an artificial bidirectional LSTM neural network model was trained and validated. Allowing a more precise way to classify the data obtained within a sentiment analysis approach. The chosen model is composed of 4 layers including a word embedding layer, a bidirectional LSTM layer, a standard layer with ReLu activation function, and a releasing layer with softmax activation that includes one neuron for each polarity or sentiment association. When evaluating the model with techniques such as confusion matrix, the accuracy, precision, sensitivity, F1- score, and Cohen’s kappa coefficient, the result shows an adjustment higher than 0.8, which indicates good assimilation of data with the Bidirectional LSTM neural network proposed. Demonstrating that this type of neural networks are an ideal alternative for sequential analysis problems, especially text-based ones due to having better short and long-term memories.

Palabras clave

Twitter, Redes neuronales LSTM, Análisis de sentimientos, Procesamiento del lenguaje natural

Keywords

Twitter, LSTM neural networks, Sentiment analysis, Natural language processing

Temáticas

Citación

Colecciones