La comunicación en tiempos del coronavirus (III): Análisis temático de Twitter en España con modelo específico COVID-19

Este es el tercer artículo de la serie sobre análisis de contenidos generados por medios de comunicación y usuarios en redes sociales en torno al coronavirus, aplicando nuestra experiencia y nuestras soluciones de Text Analytics para analizar el ingente volumen de información en lenguaje natural disponible.

Este estudio es la continuación del análisis temático de Twitter en España, pero aplicando el modelo de categorización específico que desarrollamos con la temática del coronavirus (modelo COVID-19), utilizado en el análisis temático de noticias en medios digitales de España. El objetivo es analizar el interés temático en Twitter, utilizando el modelo específico desarrollado, en cada Comunidad Autónoma, en los últimos 10 días.

Corpus de análisis

Los datos de partida para este análisis son los que se describen en nuestro artículo de análisis temático de Twitter en España: los 1 153 471 tweets recogidos en España, geolocalizados en una de las 17 comunidades autónomas, recogidos del jueves 2 de abril de 2020 al sábado 11 de abril de 2020, ambos incluidos.

La distribución por días es bastante homogénea por días, debido al confinamiento y cierre de negocios, que elimina el efecto día laborable vs fin de semana. La distribución por comunidades autónomas se muestra en la figura siguiente. La Comunidad de Madrid, Andalucía, Cataluña y la Comunidad Valencia, son, este orden, aquellas donde hay mayor número de tweets, con un total del 67 % respecto al total de tweets a nivel nacional.

Distribución de tweets por día

Análisis de hashtags, menciones a usuarios y URL

En el anterior artículo hicimos un análisis global de los hashtags incluidos en los tweets, así como las menciones a otros usuarios (bien incluidos en respuestas o en retweets) y las URLs de sitios web incluidos.

Los hashtags más frecuentes a nivel nacional se refieren, lógicamente, a la pandemia (#COVID-19, #coronavirus) y al confinamiento en los domicilios (#YoMeQuedoEnCasa y variantes). Dado el periodo de tiempo del análisis, aparecen hashtags relacionados con la Semana Santa, con la serie de “La casa de papel”, el programa de “Supervivientes”, aparte de hashtags relacionados con la política.

La siguiente figura muestra la evolución del uso de los hashtags por día. Claramente, hay algunos hashtags más estables y continuados en el tiempo, mientras que otros tienen un intervalo de popularidad muy corto, en forma de impulso, asociados a un evento, como #DomingoDeRamos, #ViernesSanto y otros días de la Semana Santa, o los asociados a programas de televisión o series (#LaCasaDePapel4, #SVGala8).

Evolución de hashtags por día

Incluso en este corto periodo de análisis de 10 días, se observa una disminución en el uso de los hashtags generales como #COVID-19, #YoMeQuedoEnCasa, #coronavirus, etc. Esto es sino reflejo del comportamiento humano usual de habituación a una situación, que hace que se necesiten mayores o nuevos estímulos para mantener el interés, como bien se conoce en publicidad y marketing.

Es curioso el hashtag #AhoraTocaLucharJuntos, que fue de tipo impulsivo, siendo el segundo más frecuente del día (8 de abril), y coincidiendo justo el mismo día del máximo del hashtag #GobiernoDimisión, que lleva a pensar en una estrategia o campaña de oposición.

La evolución de menciones a usuarios se muestra en la figura siguiente. Se observan los picos en las menciones a la cuenta de Pedro Sánchez (@sanchezcastejon) o Pablo Casado (@pablocasado_) el día o el día después a apariciones públicas o anuncios relevantes.

Evolución de de usuarios por día

Análisis temático con modelo de categorización específico

A continuación, hemos utilizado nuestros motores de categorización (clasificación) automática de texto para realizar un análisis temático de los tweets. Aunque disponemos de modelos generalistas de categorización de texto que pueden aportar información muy valiosa en el ámbito de las noticias y las redes sociales, como IAB (Interactive Advertising Bureau) Tech Lab Content Taxonomy e IPTC (International Press Telecommunications Council), que se pueden usar públicamente desde nuestras APIs de categorización de texto (Text Classification y Deep Categorization), hemos querido utilizar un modelo específico para la pandemia de COVID-19, desarrollado con nuestras soluciones de personalización en relativamente poco tiempo y con esfuerzo reducido modelos, para poder realizar un estudio más centrados en este dominio concreto.

El modelo se describe en detalle en el artículo sobre análisis temático de noticias en medios digitales de España, pero consta de 78 categorías en total, todas relacionadas con el contexto del coronavirus, con las siguientes 8 categorías de primer nivel:

  • Deporte
  • Economía
  • Medioambiente
  • Política
  • Salud
  • Sociedad
  • Tecnología
  • Otros temas

Cuando el texto no tiene que ver con la COVID-19, queda sin recibir ninguna etiqueta.

El modelo obtiene una precisión del 78 % de las etiquetas medida con la métrica LBA (label-based accuracy).

Análisis a nivel nacional

Para reducir el volumen de información a analizar y así acelerar el proceso, se aplica un muestreo aleatorio sobre el corpus completo para seleccionar un subconjunto del 10 %, quedándonos finalmente 125 369 tweets. Lógicamente, la distribución por días y por comunidades autónomas coincide con el corpus completo.

De este subconjunto, 15 981 tweets se etiquetan como relativos al COVID-19, es decir, reciben al menos una etiqueta de las del modelo, el 13 % del total.

En el anterior análisis sobre medios de comunicación, el 54 % de las noticias recibían una etiqueta. Aunque el porcentaje parece ser bajo, analizando un subconjunto de resultados manualmente, no hay demasiados falsos negativos en el etiquetado, sino que realmente un gran volumen de tweets no se refieren propiamente a la pandemia, sino a conversaciones sociales sobre música, programas de televisión, en definitiva, la vida cotidiana. Sí se observa una peor detección en ciertas categorías, por ejemplo las relacionadas con política (por ejemplo Política>Apoyo Político) o sociedad (Sociedad>Convivencia Vecinal, Sociedad>Reconocimientos, Sociedad>Valores), probablemente achacable a que las reglas desarrolladas para el modelo no cubren bien el lenguaje empleado, por la falta de vocabulario, uso de ironía, lenguaje figurado o dobles sentidos.

En total se detectan 19 014 categorías, con una media de 0.15 categorías por tweet o 1.19 categorías por tweet etiquetado. Se detectan 73 de las 78 categorías del modelo. Las categorías que no aparecen son: Economía>Suministros (en general), Medioambiente>Impacto Ambiental, Política>Cierre (en general), Política>Cierre>Cancelación de Elecciones y Salud>Efectos Psicológicos>Ludopatía.

La figura siguiente muestra la distribución temática global en España. Se puede observar que la categorías más frecuentes, aparte de Otros, son, de lejos, Política>Confinamiento, seguido a distancia por Economía>Desempleo, Sociedad>Acciones Sociales, Salud (sobre la evolución de afectados y salud en general). Comparando con el análisis anterior, tienen un grado de coincidencia bastante alto con las categorías temáticas de las noticias de medios de comunicación, aunque con una componente más “humana” o “social”, aumentando la popularidad de las categorías en estos aspectos.

Categorías más frecuentes en España

La evolución por día se muestra en la figura siguiente. Resulta notable que se observa una coincidencia bastante exacta con el caso de los hashtags en la disminución en el uso de los temas generales como hablar del confinamiento, del desempleo, etc., achacable igualmente a la habituación a la situación.

Evolución de las categorías en España por día

Análisis por comunidad autónoma

Los datos por comunidad autónoma de tweets y categorías del modelo COVID-19 totales y únicas (del total de 78, las que aparecen realmente) se presentan en la siguiente tabla.

Comunidad Autónoma Tweets Categorías Categorías únicas
Madrid, Comunidad de 26083 4465 68
Andalucía 24333 3278 60
Cataluña 22096 2931 63
Comunitat Valenciana 10927 1567 59
Galicia 5893 892 54
Canarias 5057 768 56
Castilla y León 4976 903 55
País Vasco 4137 638 51
Balears, Illes 3691 536 51
Castilla-La Mancha 3546 599 48
Asturias, Principado de 3118 546 52
Murcia, Región de 3012 479 45
Aragón 2866 471 51
Extremadura 2590 389 40
Cantabria 1529 282 39
Navarra, Comunidad Foral de 806 135 28
Rioja, La 709 135 32

La siguiente figura muestra la distribución en cada comunidad autónoma de las 20 categorías más frecuentes a nivel nacional, que permite observar el interés relativo por cada uno de los temas en cada comunidad. Por ejemplo, la temática Política>Confinamiento es más importante, de forma relativa, en Canarias que en resto de comunidades, o la temática Sociedad>Acciones Sociales en Cantabria.

Distribución de categorías por comunidad

A continuación analizaremos las comunidades más pobladas.

Comunidad de Madrid

Las categorías más frecuentes en la Comunidad de Madrid se muestran en la figura siguiente. Los resultados son idénticos en las primeras categorías a los del total de España, en el mismo orden y casi con la misma frecuencia que a nivel nacional: Otros, Política>Confinamiento, Economía>Desempleo, Sociedad>Acciones Sociales, Salud y Salud>Evolución de afectados.

Las siguientes temáticas son Política, Economía, Deporte>Eventos Deportivos y Economía>Empresas, todos ellos salvo los eventos deportivos, relacionados con la preocupación por la crisis económica y política.

Categorías más frecuentes en la Comunidad de Madrid

La preocupación por las residencias de ancianos se refleja en la posición número 12. La primera etiqueta relacionada con aprovisionamientos aparece en posición 13 (en general), y de mascarillas en concreto, en la posición 17.

Andalucía

La figura siguiente muestra las categorías más frecuentes en Andalucía. Igual que en la Comunidad de Madrid, aparecen las mismas categorías ordenadas de forma similar que a nivel nacional, aunque Deporte>Eventos Deportivos adelanta a Política y Economía.

Categorías más frecuentes en Andalucía

Las residencias de ancianos aparecen en posición 18, mientras que el aprovisionamiento está en la posición 17 (y mascarillas en la 19).

Cataluña

La figura siguiente muestra las categorías más frecuentes en Cataluña. Se mantienen las 3 primeras posiciones, pero Salud sube a la 4ª posición y la categoría de Salud>Evolución de afectados cae a la 10ª posición. Las siguientes categorías son similares a las de las anteriores comunidades.

Las residencias de ancianos están en posición 11, la mayor hasta el momento, y el aprovisionamiento está en la posición 13 (y mascarillas en la 28). La categoría sobre Ejército está considerablemente más arriba que en la Comunidad de Madrid o Andalucía.

Categorías más frecuentes en Cataluña

Comunidad Valenciana

Las categorías más frecuentes en la Comunidad Valenciana se muestran en la figura siguiente. Las más frecuentes están ordenadas de la misma manera que a nivel nacional. Resulta llamativo que la categoría de residencias de ancianos cae a posición 28. Aprovisionamientos está en la posición 14 (mascarillas en concreto en la 21 y respiradores, que no aparecen en las otras comunidades, en la posición 24). La categoría Ejército no se menciona en esta comunidad.

Categorías más frecuentes en la Comunidad Valenciana

Barómetro

Finalmente, las figuras siguientes muestra mapas representando el número de veces que aparece la categoría indicadas respecto al total de tweets de cada comunidad, en tanto por mil (es decir, para cada comunidad: score=1000*num_tweets_con_esa_categoría/num_tweets). Cuando más se mencione dicha categoría, mayor será la preocupación social respecto a este tema.

Una consideración importante es que, aparte del sesgo de cualquier investigación social en Twitter, que no refleja el estado de ánimo de toda la población, sino del subconjunto de usuarios de Twitter, que probablemente tiene unas ciertas características diferenciadas respecto al total de la población, el número de tweets y categorías detectadas en algunas comunidades, como La Rioja, es probablemente insuficiente, así que cualquier conclusión hay que extraerla con cuidado.

La figura siguiente muestra el barómetro para Salud>Residencias, donde es claramente visible que destacan la Comunidad de Madrid y Cataluña. Andalucía y la Comunidad Valenciana no alcanzan un score mayor que otras comunidades, pese a ser del grupo de las cuatro “muy pobladas”.

Preocupación por residencias en cada comunidad

De forma similar, se muestra en la figura siguiente la frecuencia acumulada de las categorías relacionadas con el aprovisionamiento de equipamiento médico respecto al total de la comunidad. La Comunidad de Madrid y Cataluña, seguidas por la Comunidad Valenciana y Galicia, reflejan los mayores índices.

Preocupación por aprovisionamiento en cada comunidad

La figura siguiente muestra lo mismo para la categoría Ejército. Cataluña es la comunidad donde esta temática es más importante, seguido por la Comunidad de Madrid.

Preocupación por el ejército en cada comunidad

La categoría Economía>Desempleo se muestra en esta última figura. Andalucía en primer lugar, seguida por la Comunidad de Madrid, alcanzan los mayores índices.

Preocupación por el desempleo en cada comunidad

Conclusiones

En este análisis en Twitter hemos querido dar un paso más allá en el análisis del interés temático en las diferentes comunidades autónomas de España en estos tiempos de pandemia. Creemos que este análisis representa con cierta fiabilidad (más fiable en aquellas comunidades con mayor número de tweets) las preocupaciones de la sociedad española en este momento.

El siguiente artículo realiza un análisis lingüístico de los discursos del presidente del Gobierno relacionados con la crisis del coronavirus.

Y estamos preparando más posts donde queremos realizar este mismo análisis del interés social en Twitter en otros países de nuestro entorno que también están sufriendo el impacto de esta crisis.

¿Quieres conocer más detalles sobre cómo se elaboró este estudio o acceder a los datos que nos sirvieron de materia prima? Contáctanos en support@meaningcloud.com.


Acerca de Julio Villena

Technology enthusiast. Head of Innovation at @MeaningCloud: natural language processing, semantics, voice of the customer, text analytics, intelligent robotic process automation. Researcher and lecturer at @UC3M, in love with teaching and knowledge sharing.

Leave a Reply

Your email address will not be published. Required fields are marked *

*
*