La comunicación en tiempos del coronavirus (II): Análisis temático de Twitter en España

Este es el segundo artículo (ver el primero aquí) de la serie sobre análisis de contenidos generados por medios de comunicación y usuarios en redes sociales en torno al coronavirus, aplicando nuestra experiencia y nuestras soluciones de Text Analytics para analizar el ingente volumen de información en lenguaje natural.

En este caso nos centramos en intentar analizar, en la medida de lo posible, el interés temático en Twitter en cada región de España, específicamente realizando un análisis por Comunidad Autónoma, en los últimos 10 días.

Corpus de análisis

Como fuente del análisis, empezamos a recoger, utilizando la API de streaming de Twitter, todos los tweets (los que pueda entregar la API, con los límites que establece la propia API) geolocalizados en España.

Para ello usamos las bounding boxes que se muestran en la siguiente figura, en concreto, usando la notación de Twitter, donde cada bounding box es rectangular y está representada por las coordenadas en (longitud, latitud) de sus esquinas suroeste y noreste: [-9.83,35.16,4.58,43.82] para la península, Baleares, Ceuta y Melilla, y [-18.74,27.56,-13.30,29.51] para Canarias.

Definición de bounding boxes para España

Twitter utiliza una serie de heurísticos para determinar la geolocalización de un tweet. El caso más sencillo es cuando el usuario de Twitter tiene habilitada su geolocalización GPS, con lo que directamente se utilizan sus coordenadas de posición. Si las coordenadas están vacías pero el campo place, que es un campo que se puede definir voluntariamente en el perfil del usuario, tiene algún valor, se toma como posición del tweet la ubicación de dicho lugar, si se puede determinar, si el usuario ha configurado un lugar real conocido. En otro caso, el tweet no recibe ninguna información de geolocalización.

Por lo tanto, en realidad no tenemos todos los tweets de España, sino sólo una muestra, aquellos tweets que están geolocalizados dentro de estas bounding boxes. Buscando en Google algo como geolocated tweets percentage aparecen diferentes estimaciones respecto al porcentaje respecto al total. Según nuestra experiencia, en experimentos que hemos realizado en diferentes proyectos, el porcentaje de tweets geolocalizados en España está en torno al 2-5 %. Por ejemplo, recientemente hemos analizado durante tres días tweets mencionando partidos políticos españoles: el 3.2 % de ellos estaba geolocalizado.

Por otra parte, Twitter entrega la ubicación como coordenadas GPS y/o como nombre de la ubicación, habitualmente a nivel de municipio, por ejemplo, Torrevieja, España. Como en este análisis queremos analizar de forma agregada por comunidades autónomas (en futuros análisis bajaremos a nivel de provincia), tenemos que obtener la comunidad autónoma correspondiente a la ubicación del tweet. Para ello el Instituto Nacional de Estadística (INE) nos lo pone muy fácil (a diferencia de otros países), con la lista completa de todos los municipios españoles, por provincias y comunidades autónomas. Por tanto, sólo hay que cruzar el nombre del lugar que entrega Twitter con esta lista, con alguna que otra adaptación: mismo topónimo en español, gallego, euskera o catalán (<i>València, Espanya</i> vs <i>Valencia, España</i>), diferentes grafías con o sin guión, etc.

Los tweets para los que no se pueda obtener su comunidad autónoma, serán desechados. Además, las definiciones rectangulares de las bounding boxes cubren Portugal, el sur de Francia y el norte de Marruecos, tweets que también hay que eliminar del análisis.

Este análisis se va a centrar en los tweets recogidos del jueves 2 de abril de 2020 al sábado 11 de abril de 2020, ambos incluidos. En total, la API de Twitter ha entregado en ese periodo un total 1 467 774 tweets contenidos en esas bounding boxes. Tras el cruce por comunidad autónoma, quedan 1 153 471 tweets, asignados a una de las 17 comunidades españolas. El volumen de tweets para Ceuta y Melilla es tan bajo que tenemos que dejarlos de momento fuera del análisis.

La distribución por días se muestra en la figura siguiente. Es muy homogéneo por días, sin observarse el efecto día laborable vs fin de semana, lógicamente debido al confinamiento y cierre de negocios y al periodo de Semana Santa.

Distribución de tweets por día

Análisis a nivel nacional

Los hashtags se han agrupado considerando variantes con diferente capitalización (#JuevesSanto es igual a #juevessanto), uso de caracteres acentuados o no (#sábado es igual que #sabado) y empleo de guiones, puntos u otros signos de puntuación (#COVID-19 es igual que #COVID19).

En total se han utilizado 80 305 hashtags diferentes. La figura siguiente muestra los hashtags más frecuentes, que se refieren, lógicamente, a la pandemia (#COVID-19, #coronavirus) y al confinamiento en los domicilios (#YoMeQuedoEnCasa, #QuedateEnCasa, #JoEmQuedoACasa). Dado el periodo de tiempo del análisis, aparecen hashtags relacionados con la Semana Santa y con la serie de “La casa de papel”, aparte de hashtags relacionados con la política.

Hashtags más frecuentes a nivel nacional

Análogamente, se han recogido un total de 278139 menciones a usuarios de Twitter. La figura siguiente muestra las menciones más frecuentes a nivel nacional. En este caso, la política es la ganadora, con el presidente Pedro Sánchez (@sanchezcastejon) como el usuario más mencionado, seguido por la cuenta del PSOE (@PSOE) y la del líder de la oposición, Pablo Casado (@pablocasado_).

Menciones más frecuentes a nivel nacional

Por último, hay 9 181 URLs de sitios web incluidas en los tweets. La figura siguiente muestra las URLs más frecuentes. Se puede ver claramente el uso destacado de vídeos de YouTube, seguido de menciones (retweets, respuestas) a otros tweets, listas y canciones de Spotify, y luego las URLs de medios de comunicación, con El País, ABC, eldiario.es, El Mundo y Ok Diario como los 5 más populares.

URLs más frecuentes a nivel nacional

Análisis por comunidad autónoma

Los datos de tweets y hashtags, menciones y URLs totales y únicos, por comunidad autónomas se presentan en la siguiente tabla. Se puede observar que la Comunidad de Madrid, Andalucía, Cataluña y la Comunidad Valenciana suman 768 510‬ tweets, un 67 % del total, que resulta lógico puesto que estas comunidades suman 27 606 684 habitantes, el 60 % del total de España (ver Comunidades y ciudades autónomas de España).

Comunidad Autónoma Tweets Hashtags Hashtags únicos Menciones Menciones únicas URLs URLs únicas
Madrid, Comunidad de 239619 69774 20891 259634 76252 16920 2626
Andalucía 226378 65400 18175 238723 68000 12110 1761
Cataluña 203529 75876 23052 252009 67486 14780 2637
Comunitat Valenciana 98984 28169 10236 108057 36861 6203 1232
Galicia 54628 15893 5476 56340 18985 3294 705
Castilla y León 46088 15797 5175 47732 18520 4519 653
Canarias 45567 13293 5125 47287 17616 2138 507
País Vasco 37333 11953 3907 56904 14807 2933 586
Balears, Illes 34449 10155 4317 33994 12844 2195 568
Castilla-La Mancha 32562 12470 4265 30171 12719 2319 522
Murcia, Región de 28623 8109 3104 31694 11572 2047 481
Asturias, Principado de 28533 7926 3101 29064 10508 1690 411
Aragón 26120 6806 2752 25168 10261 1554 378
Extremadura 22592 6492 1988 25734 8723 1748 294
Cantabria 14693 3951 1625 15123 6693 946 266
Navarra, Comunidad Foral de 7138 2194 1096 9219 4053 636 170
Rioja, La 6635 2565 858 7272 3069 673 182

En los siguientes apartados se muestra el análisis específico por cada una de las cuatro comunidades más pobladas, y al final, un resumen del resto.

Comunidad de Madrid

Los hashags más frecuentes en la Comunidad de Madrid se muestran en la figura siguiente. Aparecen los mismos que a nivel nacional, pero destaca que los hashtags de carácter político son mayoritariamente en contra del gobierno: #GobiernoDimisión, #GobiernoCriminal, #LaPesteRoja, #GobiernoDimisiónYa, etc. El primer hashtag relacionado con la Semana Santa aparecen en la posición 18, demostrando quizás un interés reducido por este tema en esta comunidad.
Hashtags más frecuentes en la Comunidad de Madrid

Respecto a menciones a usuarios, la figura siguiente muestra las menciones más populares en la Comunidad de Madrid. El presidente Pedro Sánchez y la Presidenta de la Comunidad de Madrid, Isabel Díaz Ayuso (@IDiazAyuso) son los más mencionados.

Menciones a usuarios más frecuentes en la Comunidad de Madrid

Andalucía

La figura muestra los hashtags más frecuentes en Andalucía. Coinciden temáticamente con los más frecuentes a nivel nacional, pero los referentes a la Semana Santa (#SemanaSanta, #SemanaSanta2020, #SemanaSantaEnCasa, #SSantaSevilla20, #CofradíasMlg, #DomingoDeRamos, #LunesSanto, #MartesSanto…), con el primero en 5ª posición, son más populares que en otras comunidades, probablemente por el interés en Andalucía. En total, de los 30 hashtags más frecuentes, se usan 7 314 veces los relacionados con COVID-19 y confinamiento, y 3569 veces los relativos a la Semana Santa, que sería sin duda el segundo tema de mayor interés en Twitter.

Hashtags más frecuentes en Andalucía

La siguiente figura muestra las menciones más frecuentes a usuarios en Andalucía. En este caso no aparecen apenas menciones a la política regional.

Menciones a usuarios más frecuentes en Andalucía

Cataluña

La siguiente figura muestra los hashtags más frecuentes en Cataluña. Aparte de la preocupación por el coronavirus, destaca el empleo de hashtags en catalán, demostrando el vigor de este idioma en Twitter, y la elevada frecuencia de hashtags relacionados con la meteorología (#CMI, #meteocat, #meteo, #arameteo, #eltemps, #meteowareplus…), posiblemente debido a los tweets automáticos de CatalunyaMeteoInfo.

Hashtags más frecuentes en Cataluña

La siguiente figura muestra las menciones más frecuentes a usuarios en Cataluña. En este caso, los personajes específicos del ámbito de esta comunidad son los más mencionados de forma muy destacada (@QuimTorraiPla, @MiquelIceta, @OriolMitja).

Menciones a usuarios más frecuentes en Cataluña

Comunidad Valenciana

Por último, la siguiente figura muestra los hashtags más frecuentes en la Comunidad Valenciana. En este caso, parece una mezcla de los anteriores casos: preocupación por la pandemia y el confinamiento, la Semana Santa (primer hashtag #SemanaSanta en posición 11, #SemanaSantaEnCasa, #SemanaSanta2020…), y posiciones políticas en contra del gobierno (#GobiernoDimisión, #HazQuePaguen, #DimisiónYa), además de “La casa de papel” (posición 14).

Hashtags más frecuentes en Comunidad Valenciana

Y la siguiente figura muestra las menciones más frecuentes a usuarios. Similar a lo anterior, hay una mezcla de políticos, partidos y medios de comunicación nacionales y personajes influencers o con una gran producción en Twitter, destacando con mucho las menciones al presidente Pedro Sánchez.

Menciones a usuarios más frecuentes en la Comunidad Valenciana

Otras comunidades

De forma resumida, los temas de interés en el resto de comunidades están en la misma línea: coronavirus, la política, la Semana Santa y “La casa de papel”. Sin embargo, caben mencionar algunas particularidades específicas de cada comunidad:

  • Aragón: Cabe destacar la mención #75AniversarioCDS en 8ª posición, menciones específicas de la Semana Santa de Zaragoza (#HumildadZgz, #DulceNombreZgz) y el hashtag #FrenarLaCurva (en posición 11).
  • Principado de Asturias: Destaca el hashtag #DesdeMiVentana en 8ª posición (única referencia en los frecuentes de España) y hashtags a favor de la política del gobierno (#StopFachaBulos en 10ª posición, #RepúblicaEsPosible)
  • Islas Baleares: Aparecen de forma distintiva los hashtags #EstelConnecta y #EstelEstima y los de apoyo #GianmarquistaSiempre y #GianmarcoNoEstaSolo.
  • Canarias: Cabe mencionar #SinIngresosNoHayCuotas y #animoAutonomos, así como #PreludioLibertad.
  • Cantabria: De los hashtags políticos más frecuentes destacan #SanchezDimision, #FernandoSimonDimision, #GobiernoDimision.
  • Castilla y León: El primer hashtag de carácter político es #YOAPOYOALGOBIERNO, más frecuente que #GobiernoDimision.
  • Castilla-La Mancha: Aparecen menciones a kárate (#karateolímpico, #Karate2024) y también #GianmarquistaSiempre.
  • Extremadura: Los hashtags más populares son #AmarVolarAlInvierno y #MiVoto20, quizás mostrando una menor preocupación por la menor incidencia de la pandemia en esta comunidad.
  • Galicia: El único hashtag en gallego que aparece en el top 30 más frecuente es #EuQuedoNaCasa, aunque de escaso uso.
  • Región de Murcia: El hashtag #YOAPOYOALGOBIERNO es mucho más frecuente que #GobiernoDimisionya.
  • Comunidad Foral de Navarra: El hashtag más popular es #Navarra, más que los referentes al coronarvirus
  • País Vasco: Ningún hashtag entre los más frecuentes en euskera. De los políticos, aparecen #ManifestaciónGobiernoDimisión y #500milneuronasentraelgobierno.
  • La Rioja: Destacan #calahorracumple, #Calahorrasequedaencasa, #CalahorraEsSemanaSanta.

Barómetro

Finalmente, la figura siguiente muestra un mapa representando el número de hashtags de entre los 10 hashtags más frecuentes en cada comunidad autónoma que están relacionados con el coronavirus, bien como referencias directas (#COVID-19, #coronavirus), o al confinamiento (#YoMeQuedoEnCasa, #Cuarentena), mensajes de ánimo (#EsteVirusLoParamosUnidos, #TodoSaldráBien), etc. No se incluyen mensajes políticos ni de apoyo ni de crítica al gobierno.

Recuento de hashtags frecuentes sobre coronavirus por comunidad autónoma

Según estos resultados, la comunidad autónoma más preocupada por el coronavirus en el periodo de análisis es Castilla y León (con 8 de los 10 primeros hashtags) y las que menos, Extremadura y País Vasco (con 3).

Conclusiones

Con este primer análisis en Twitter hemos querido investigar en los temas de interés nacionales y por comunidades autónomas en Twitter, inicialmente basándonos en inferencias a partir de los hashtags, menciones a usuarios y URLs empleados por los propios usuarios, a modo de “categorización manual” de dichos contenidos. Este análisis permite sondear la opinión a nivel regional, de forma automatizada y con coste reducido en comparación con encuestas, aunque con las lógicas reservas en referencia al sesgo de muestreo al seleccionar los tweets (no se reciben todos los de España, sino los geoposicionados), y si el propio empleo de Twitter es representativo de los intereses y la forma de pensar de la población española en su conjunto, a nivel nacional y regional.

En futuros posts ampliaremos el estudio sobre este corpus empleando modelos de categorización específicos sobre COVID-19, así como análisis realizados sobre Twitter en otros países afectados por esta pandemia.

¿Quieres conocer más detalles sobre cómo se elaboró este estudio o acceder a los datos que nos sirvieron de materia prima? Contáctanos en support@meaningcloud.com.


Acerca de Julio Villena

Technology enthusiast. Head of Innovation at @MeaningCloud: natural language processing, semantics, voice of the customer, text analytics, intelligent robotic process automation. Researcher and lecturer at @UC3M, in love with teaching and knowledge sharing.

Leave a Reply

Your email address will not be published. Required fields are marked *

*
*