Publicado originalmente en Medium el 17 de marzo de 2020

La pandemia por COVID-19, la variante de coronavirus que surgió en Wuhan, China a finales de 2019, ha inundado la conversación digital. En México, la producción de mensajes en torno al “coronavirus” ha mantenido una serie de hashtags entre los “trending topics” de los últimos días debido, principalmente, a las noticias de nuevos casos y a las medidas implementadas por las autoridades con miras a contener el contagio.

El 11 de marzo, la OMS declaró el brote de COVID-19 como una pandemia y en México el tema colocó a dicha palabra, “pandemia” como uno de los TT durante aquella jornada. En México, según la estimación del encargado de la crisis sanitaria, el subsecretario de Salud, Hugo López-Gatell, nos esperan 12 semanas con este tema. Mientras distintas medidas se toman en el país (al igual que en otros países) y el número de pacientes en México pasó de 53 a 82 el día 17 de marzo, las y los usuarios de Twitter mantienen activa la conversación respecto al tema.

A partir de dos extracciones de datos de la red social Twitter, buscamos evaluar dos cosas: ¿hacia quién se dirigen las interacciones en el marco de la contingencia por COVID-19? y por otra parte, ¿entre quiénes se entrelaza la conversación digital?

Lo que sigue a continuación son visualizaciones e interpretaciones muy someras de datos, exploratorias en primer lugar pero que buscan hacer un poco de sentido a cómo los usuarios usan las redes en momentos de incertidumbre.

Información, ansiedad y duda de alta exposición

A pesar de la existencia de canales institucionales de información (conferencias de prensa diarias y emisión de boletines informativos), se han dado fenómenos como las compras de pánico en algunos lugares de México o difusión de noticias falsas, tanto por medios como WhatsApp como desde las cuentas personales de periodistas.

Ante ello, la primera pregunta que nos surgió es hacia quién se está dirigiendo la conversación digital en redes sociales, en particular Twitter, en el marco de la crisis por COVID-19 o coronavirus en México.

Dado que existen múltiples hashtags en uso para referirse a la pandemia (#covid19, #covid-19, #covid19mx, entre otras variantes) decidimos dejar de lado la idea de extraer mensajes mediante un hashtag. En su lugar usamos una palabra clave, simple pero presente en casi todos lados: “coronavirus”.

La siguiente dificultad era el hecho de que esta palabra está presente tanto en los mensajes en español (en toda Latinoamérica) como en inglés en el resto del mundo. Para tratar de filtrar lo más posible la búsqueda, decidimos captar los mensajes geolocalizados alrededor del centro de México.

Adicionalmente, decidimos dejar fuera los retweets de la primera muestra. La premisa era sencilla: en un primer momento, no nos interesan las interacciones como quién está siendo referido en los mensajes que hablan del tema.

A partir de este triple criterio (palabra clave + geolocalización + mensajes únicos) realizamos una extracción de publicaciones de Twitter mediante R Studio. El resultado fueron 108 mil mensajes únicos publicados entre las 20 horas del 12 y las 11 horas del 17 de marzo, aproximadamente.

Extracción de mensajes únicos en Twitter

Llamamos “mensajes únicos” a los que se visualizan a continuación, ya que descartamos de la extracción aquellos que son retweets y captamos solo publicaciones independientes entre sí. Esto reducirá la cantidad de relaciones entre el total de los usuarios obtenidos, pero nos permitirá observar a quién se dirigen (si acaso) sus mensajes en forma de menciones y replies.

Grafo 1. Red usuario-a-usuario a partir de 108 mil mensajes únicos publicados en Twitter (18/03/2020).
Grafo 1. Red usuario-a-usuario a partir de 108 mil mensajes únicos publicados en Twitter (18/03/2020) geolocalizados en México a partir de la palabra clave “coronavirus”. La visualización se construyó mediante el algoritmo Force Atlas 2 de Gephi, las etiquetas de nodos destacan aquellos con mayor grado de entrada con pesos.

La red U2U está conformada por 56,821 nodos y 26,450 aristas. Al haber descartado los retweets es de esperar contar con una red “menos conectada”. En el Grafo 1 se visualizan los nodos con mayor grado de entrada. Son usuarios que recibieron mayor número de menciones o respuestas en la red. Además de la cuenta del presidente de México, Andrés Manuel López Obrador (@lopezobrador_) se encuentran la cuenta oficial de la Secretaría de Salud y la del subsecretario de esa dependencia, Hugo López-Gatell.

La cuenta de dos medios, El Universal y El País, se encuentran entre los nodos con mayor número de relaciones de entrada. También se encuentra el servicio de video YouTube y la cuenta del presidente de Estados Unidos, Donald Trump (@realDonaldTrump). Otras cuentas que se volvieron centrales fueron la del periodista Joaquín López Dóriga, la del ministro canadiense Justin Trudeau, y la cuenta del festival musical Vive Latino que se realizó el fin de semana previo pese a las críticas y dudas en medio de la crisis de COVID19. Para tener una mejor idea de aquellos nodos más centrales (por in-degree), los ubicamos en la tabla que nos ofrece Gephi.

Tabla 1. Nodos con mayor grado de entrada en el Grafo 1.

Entre los usuarios hacia los que más se dirigieron mensajes en la muestra de mensajes únicos se encuentran periodistas, autoridades y medios de comunicación. Al haber descartado los retweets de la extracción, solo captamos los mensajes dirigidos y menciones hacia estos usuarios. No exploramos en el campo de “text” de las publicaciones por lo que no aventuramos el sentido (positivo/negativo) de las publicaciones.

Una posible forma de interpretar este patrón podría ser la siguiente: al observar mensajes únicos (descartando RTs) en Twitter en torno al tema de la pandemia por coronavirus en México, vemos que gran cantidad de los contenidos se dirigen a autoridades, personajes políticos y medios. Así, es posible que los usuarios estén dirigiendo dudas o reclamos a esos nodos más centrales.

El método de extracción que elegimos en esta primera fase nos da redes más desconectadas. Una prueba de ello es observar de nuevo el Grafo 2 pero destacando los nodos por grado de salida. Así vemos una gran cantidad de nodos desconectados del resto de la red que “orbitan” a aquellos sectores más conectados. Estos “satélites” son usuarios que, aun cuando usaron la palabra clave de nuestro criterio de búsqueda, no mencionaron ni respondieron a otros usuarios en esta muestra.

Grafo 2. Red usuario-a-usuario, los nodos se destaca por su grado de salida.

Extracción de mensajes incluyendo retweets

Cuando cambiamos el método de extracción y aceptamos captar los retweets tendemos a obtener una red más conectada. Los retweets parecen expresar cierto grado de connivencia con el mensaje del autor. Esta relación positiva entre usuarios se suma a las menciones y respuestas, que pueden tener otra cualidad.

Sin embargo, lo que sí parece representarse de manera más coherente son las “comunidades” de usuarios que se forman en torno a ciertos temas o a otros usuarios. La ventaja de incluir los retweets parece ser la de dar mayor cohesión a aquellos usuarios que comparten más “espacio digital” en una muestra de tweets dada.

El Grafo 3 representa las relaciones de usuario-a-usuario para una muestra de 107 mil mensajes en la red social Twitter, publicados entre las 20 horas del 16 y 11 horas del 17 de marzo, aproximadamente. El grafo resultante cuenta con 72,258 nodos y 94,037 aristas. Es notable que abarca menos tiempo, esto debido a que absorbimos el impacto de los retweets.

Grafo 3. Red de usuario-a-usuario a partir de 107 mil mensajes en el servicio Twitter, geolocalizados en México y a partir de la palabra clave “coronavirus”. Las etiquetas de nodo más grandes expresan a los usuarios con mayor grado de entrada.

El patrón que muestra el nuevo Grafo 3 al incluirse los RTs es muy distinto al del primer grafo. En primer lugar, podemos notar que a pesar de que existe un gran número de comunidades (en una publicación anteriores notamos la polaridad en la discusión digital cuando usábamos un criterio de búsqueda por hashtag: Redes a favor y en contra de AMLO en México), la vinculación entre ellas es de “poca fuerza” y mantiene a los islotes de usuarios entremezclados en algunas zonas y separados en islas en otras. La lista de usuarios más centrales por grado de entrada es ilustrativa en este sentido.

Tabla 2. Usuarios con mayor grado de entrada en el Grafo 3 que incluye relaciones de retweet.

Aunque siguen apareciendo autoridades y periodistas, a la lista se unen youtubers, medios alternativos e incluso cuentas “de humor”.

Una forma de interpretar este patrón es que, además de la información oficial en torno al tema que aquí nos ocupa, la pandemia por coronavirus presente en México, otras formas de interpretar el fenómeno están activas en la conversación además de la información oficial y la interpelación entre actores políticos, que muchas veces ocupan gran parte de los análisis.

Otra cosa a considerar es que el método de extracción nos ofreció un panorama más heterogéneo en torno al tema del coronavirus. Creemos que en ocasiones, el uso de hashtags para generar grafos nos impide ver a ciertos usuarios. Encontrar la manera de salvar estos sesgos no es fácil ni creemos aquí haber logrado algo por el estilo. Pero sí creemos que utilizar una palabra clave y la geolocalización de mensajes en lugar de una etiqueta cambia la forma de los patrones encontrados en los grafos. Para el caso que aquí expusimos, la poca conectividad interna de la red nos resultó llamativa y expresiva de una heterogeneidad en la conversación. Por ejemplo, cuando sometimos el grafo a un filtro de conectividad k-core (k=2) nos quedamos con apenas el 25% por ciento de los nodos y el 49% de las aristas. Cuando elevamos k=3 nos quedó poco más del 9% de los nodos y 27.5% de las aristas. Es decir, una gran sección del grafo está muy poco conectada entre sí y al resto de los nodos, a pesar de captar las relaciones de retweet.

Posibles consideraciones al momento de analizar datos de Twitter

Como se puede adivinar, esta exploración de datos está lejos de proponer conclusiones. Pero sí algunas consideraciones al momento de analizar datos extraídos de Twitter.

La primera es que los datos con que trabajamos, como con cualquier otra estrategia de investigación, están lejos de ser precisos. Aunque usamos operadores para geolocalizar mensajes de Twitter esperando obtener solo publicaciones de México, estuvimos lejos de lograr el objetivo. Algunas publicaciones de usuarios fuera del país cayeron en la muestra.

Otra observación es que, al descartar un tipo de las relaciones posibles entre usuarios (en la primera muestra, el retweet) los patrones que se nos presentan son muy distintos a cuando sí la tomamos en cuenta. (Sin contar el sesgo temporal que se nos podría presentar: en la primera muestra, captamos más días que en la segunda) Esto implica que podemos cambiar las preguntas que hacemos a los datos a partir de cómo integramos o dejamos de lado ciertos tipos de relaciones susceptibles de observarse.

Finalmente, que dando estas pequeñas vueltas de tuerca, podemos pasar de un problema a otro muy distinto. Aquí apenas quisimos sugerir hacia dónde y quién se está dirigiendo la conversación digital en el tema del coronavirus y cómo cambia la perspectiva si se integra o descarta un tipo de relación posible. Mientras reflexionamos al respecto, quizá se nos ocurran nuevas preguntas qué formular a los datos.