
Por qué es hora de tirarse al Data Lake
11 abril 2019

El poder de los datos es indiscutible. Cualquier empresa que se precie ya ha invertido en Machine Learning e Inteligencia Artificial. Estas dos herramientas han sido el tema de cientos de artículos – hemos hablado sobre cómo las usan las empresas, cómo los chat bots, la tecnología predictiva y el clustering automatizado van a cambiar el juego de la productividad. Sin embargo, aún no hemos explorado a fondo las herramientas más relevantes, aquellas que tendrán el mayor impacto.
En este artículo, nos centraremos en los Data Lakes – la clave para hacer frente a los retos que se avecinan.
¿Qué exactamente es un Data Lake?
Hace siete años, Forbes publicó un artículo en el que el analista tecnológico Dan Woods explicaba que los datos más impactantes no podían organizarse en filas y columnas. Para aprovechar al máximo estos datos, tenemos que desarrollar una forma de organizar y almacenar ese gran volumen de datos que recibimos en formatos diferentes con el fin de evitar cualquier transformación que pueda sesgar el análisis futuro.
Ahora mismo estamos en un tren en movimiento y cada vez es más difícil predecir el tipo de análisis que podremos realizar en tan sólo dos o tres años. Dicho esto, podemos estar seguros de una cosa: el análisis que harás dentro de un par de años se basará en datos que hoy no puedas almacenar.
Las tecnologías cambian rápidamente. Los Data Marts y los Data Warehouses han demostrado ser útiles en el pasado – y siguen siéndolo en algunos casos – porque los datos que estamos analizando están estructurados y podemos acceder a ellos rápidamente y extraer información fácilmente.
Pero en un mundo en el que el Internet de las cosas se está apoderando de nuestras salones y en el que cada día se crean 2,5 quintillones de datos, deberíamos asumir que, en los próximos años, nuestra capacidad actual para estructurar datos en tiempo real no será suficiente. Necesitamos empezar a almacenar datos en su estado más crudo. Formatos como .jpg y .pdf son cada día más fáciles de estructurar y el Machine Learning nos permite etiquetar y organizar automáticamente imágenes, recibos de taxi, paquetes entrantes, al tiempo que podemos extraer aprendizajes maravillosas y poderosas.
Gestionando todos esos datos
La principal diferencia entre los Data Lakes y los Data Warehouses tradicionales (o Data Marts) es que los datos ya no están organizados y estructurados en el punto de entrada. Aún así, tenemos que averiguar cómo abordar el manejo de esta cantidad tan inmensa de datos y hoy en día contamos con tecnologías diseñadas para ayudarnos a hacerlo:

Dependiendo de tus necesidades, tu Data Lake puede estar desarrollado combinando todas las herramientas que sean necesarias.
El Data Mart está muerto, compra en otro lado.
Los Data Marts y los Data Warehouses no son tan potentes como los Data Lakes y la era de la IA exige un enfoque potente del almacenamiento de datos. Pregúntate: ¿hay algún experto en tu organización capaz de encontrar la información dentro de tu nuevo Data Lake? Lo que necesitas es un Data Scientist – el trabajo más sexy del siglo según algunos. Esta profesión ha vivido una evolución significativa en los últimos años. Sin embargo, hay que tener en cuenta que se necesita algo más que un científico de datos con un conocimiento profundo del almacenamiento y análisis de datos. La clave estará en ser capaces de asegurar que el conjunto de co-workers tengan, al menos, un conocimiento básico de las herramientas y los procesos emprendidos por los científicos de datos, con la finalidad de poder hacer un seguimiento y evaluar el valor de los datos que se extraen.
Pero, ¿esto es posible? Sí, la buena noticia es que el desarrollo de nuevas herramientas está haciendo que el campo de la ciencia de datos sea cada vez más accesible. Plataformas como BigML, socio de Good Rebels, ofrecen herramientas de Machine Learning estructuradas y no estructuradas con una interfaz de usuario sencilla y un potente flujo de trabajo que permite una escalada ilimitada de proyectos.
Y, por si lo lo recordabas, ¡no te olvides de que todos llevamos una esencia de científico de datos dentro!

