
Data Science: el arte de sacarle partido a lo sencillo
20 enero 2021

Cada año, millones de personas en todo el mundo descubren cuáles han sido sus artistas favoritos, qué géneros musicales nuevos han conocido, si realmente escuchan los podcasts que dicen seguir o cuál ha sido la canción que más han reproducido en bucle (posiblemente Run Boy Run después de ver ese episodio de The Umbrella Academy).
Nos referimos, por supuesto, a Spotify Wrapped, un elegante resumen de nuestros hábitos de escucha (y, por qué no decirlo, también de nuestros “placeres ocultos”). Pero lo mejor de Spotify Wrapped no es la elegancia ni la creatividad, sino, sin duda, lo sencilla que es la idea.
En Good Rebels, hemos tenido la oportunidad de comprobarlo con nuestros propios ojos… Más o menos. ¡Presentamos #MisPalabrasTienenColor!
Las cosas claras

No vamos a mentir. Esta es solo una de las 150 líneas de código que usamos para el proyecto. Pero, de alguna manera, es la base sobre la que desarrollamos un “sencillo” bot que generó casi 100 millones de impactos en redes. ¿Lo mejor? Que no recurrimos ni a publicidad ni a influencers. Conseguimos llegar a millones de usuarios y fuimos el primer trending topic en México a la antigua usanza: volviéndonos virales.

Nuestra versión del resumen anual también estaba basado en datos de los usuarios, pero en vez de usar una plataforma de pago, usamos Twitter. El concepto era muy sencillo: buscamos los nombres de colores que los usuarios habían mencionado en sus tweets y retweets durante 2020, emparejamos cada palabra clave con su color correspondiente, y elaboramos un gráfico personalizado.
Cabe mencionar que los nombres de los colores de nuestro cliente eran muy creativos. Lejos de los tradicionales “azul” o “amarillo”, los colores de Comex se llamaban “Madrid”, “libro” o “idea”. En total, la marca cuenta con 2.000 nombres, cada uno asociado a un color distinto. Así, el resultado del proyecto fueron gráficos como este:

Una (breve) explicación técnica
¿Y cómo logramos que el bot funcionara?
Todo el código estaba escrito en R, fundamentalmente en rtweet y tidyverse. Además, necesitarás una cuenta de Twitter Developer, y no tomarte muy al pie de la letra los términos y condiciones de Twitter para desarrolladores. Una vez tengas todo listo, puedes montarlo en un equipo remoto; nosotros usamos Azure’s Data Science Virtual Machine.
Programamos el script con cronR, de manera que se ejecutara una vez por minuto y buscara nuevas menciones con el hashtag #MisPalabrasTienenColor. Cuando encontraba una nueva mención, el script analizaba todos los demás tweets que el mismo autor o autora había publicado en 2020. Después, buscaba los nombres de los colores, creaba un mapa de árbol y lo publicaba desde la cuenta oficial y verificada de nuestro cliente, mencionando al autor o autora. Además, incorporamos un pequeño código que registraba a los usuarios que ya tenían su gráfico, para que el script ignorara sus tweets si volvían a publicar el hashtag.
Una de las mejores cosas del proyecto es que, aunque lanzamos el bot “en secreto” para que el cliente pudiera probarlo, se nos fue de las manos en seguida. Los usuarios de Twitter lo descubrieron en cuestión de minutos, sin necesidad de menciones oficiales ni instrucciones. En apenas dos horas, el hashtag se convirtió en trending topic en México.
El éxito fue tal que, aunque el bot tarda unos 17 segundos en crear cada gráfico, en un momento dado tuvimos una lista de espera de más de cuatro horas. Y cada vez que intentábamos buscar una solución creativa para agilizar el proceso, nos suspendían la aplicación pasados unos minutos.
La clave está en la “sencillez”
Al final, el bot publicó casi 10.000 gráficos. Una idea interesante y “sencilla” que surgió en un canal de Slack y que, honestamente, no sabíamos si iba a funcionar.
Una activación “sencilla” que, al menos durante un rato, logró romper con la actitud anti-2020 de Twitter gracias a un bonito gráfico que recordaba las palabras más utilizadas por los usuarios. Y, por supuesto, que consiguió reforzar la notoriedad de la marca ayudando a los usuarios a descubrir los colores de nuestro cliente.
La “sencillez” no solo era el fundamento de nuestro proyecto: también es el objetivo de este artículo. Cuando leemos sobre Data Science, solemos encontrar innovaciones complejísimas o proyectos que utilizan poderosos algoritmos para hacer realidad las ideas más surrealistas. Y, la verdad, es bastante abrumador.
Nos gustaría defender que, a veces, lo “sencillo” es más que suficiente. A veces no hacen falta algoritmos ni PLN, como algunos habían supuesto. A veces lo único que necesitamos es ponernos a ordenar datos disponibles públicamente.

