Muchas empresas se están enfrentando a la transformación hacia la data-driven company, un modelo de empresa que basa sus decisiones en sus datos, o mejor aún en los insight derivados del análisis de datos a su disposición, gracias a procesos que adoptan las empresas como el data pipeline. Los objetivos del proceso están muy claros: mejorando los resultados de las decisiones, las empresas aspiran a optimizar sus procesos, a reducir los costes, a aumentar la competitividad y, no menos importante, a consolidar su posición en el mercado.
Cualquier organización moderna dispone de grandes volúmenes de datos sobre los que llevar a cabo análisis en profundidad. Sin embargo, no obstante la promesa de una mejor competitividad, solo un porcentaje reducido de ellas es realmente data-driven; concretamente, un 23,9%, según NewVantage Partners. Uno de los motivos es la falta de competencias necesarias para los proyectos de data science, o – en otras palabras – para transformar grandes volúmenes de datos brutos (y heterogéneos, estructurados y no estructurados) en información, después en conocimiento y, por tanto, en valor tangible.
El proceso que va desde el dato bruto a la información es un data pipeline.
Data Pipeline como pilar de los proyectos de data science
Formalmente, el data pipeline se puede describir como el proceso (o el método) adoptado por la empresa que comienza con la adquisición de datos brutos de diferentes fuentes (database SQL y NoSQL, archivos, IoT …) y realiza muchas operaciones sobre los mismos con el objetivo de hacerlos accesibles para su análisis dentro de repository como los data lake o los data warehouse. Así, el data pipeline habilita la transformación del dato en información accesible para los usuarios finales y, por tanto, es esencial en el proceso de las empresas hacia la data-driven company.
El data-pipeline es necesario debido a (especialmente) la gran heterogeneidad de los datos empresariales, que, en efecto, no están listos para su utilización inmediata y necesitan elaboraciones para su estandarización e integración. Identificados los requisitos de negocio, es decir, la información que la empresa espera obtener de sus datos, corresponde a los profesionales de los data science (scientist, analyst, engineer) diseñar e implementar un pipeline escalable, lo más posible automatizado y que ofrezca resultados en tiempos adecuados, que hoy pueden llegar hasta el tiempo real.
Data Pipeline: arquitectura y diferencias con ETL
Por lo general, la arquitectura de un data pipeline está formada por tres elementos, o fases principales:
- la ingestion, o recogida de datos;
- los procesos de transformación de datos;
- el almacenamiento.
La arquitectura arriba descrita explica porqué las expresiones data pipeline y pipeline ETL (Extract, Transform, Load) se usan habitualmente de forma intercambiable, aunque no representen el mismo concepto. Formalmente, el pipeline ETL es una tipología, o subcategoría de data pipeline, y se basa en una secuencia rígida de operaciones y en la elaboración batch, con el objetivo de cargar los datos en un data warehouse para su análisis empresarial. El data pipeline es, en cambio, un concepto más amplio y flexible: reúne en sí (también) el principio de la elaboración en tiempo real, puede incluir operaciones extra, como la convalidación de los datos y la gestión de los errores, y se puede emplear para diferentes finalidades, como la alimentación de data lake.
Cómo funciona un típico data pipeline
Típicamente, un data pipeline se articula en una serie de procesos que, como se ha mencionado, parten del dato bruto y lo hacen accesible para actividades de análisis y de apoyo decisional. Los pipelines son definidos por la empresa en función de los datos con los que trabajar y, principalmente, por los objetivos del proyecto. Los elementos cardinales de un pipeline son cuatro.
Extracción de datos
El primer paso es la extracción de los datos brutos de diferentes fuentes: tablas de bases de datos, hojas de cálculo, documentos no estructurados como imágenes, código, datos IoT y mucho más.
Data governance
A los datos se aplican reglas de governance para garantizar su calidad (la calidad del dato es un tema central en cualquier proyecto de data science), integridad y seguridad.
Transformación de datos
La transformación de datos es el área clave del data pipeline. El objetivo es modificarlos con la finalidad de obtener un formato correcto y hacerlos accesibles para cualquier tipo de actividad. El proceso puede incluir diferentes pasos, como los que están dirigidos a la estandarización, deduplicación, enmascaramiento, verificación, filtraje o agregación.
Uso compartido de datos
Una vez transformados, los datos pueden archivarse en un repository local o en la nube para su uso compartido, el análisis y la visualización de los datos, que a través de informes y paneles de síntesis dirige las decisiones más importantes y acelera el proceso hacia la data-driven company.