Hoy en día, las empresas no solo se enfrentan a los desafíos relacionados con el volumen y la heterogeneidad en la data ingestion, sino también a su gran diversidad de formatos y fuentes.
A las fuentes estructuradas tradicionales se añade un maremágnum de contenidos no estructurados, archivos multimedia, streaming de datos IoT, log e informes, que constituye un ecosistema informativo muy variado. La finalidad principal de las empresas es valorizar su (enorme) conjunto de datos, poniéndolo a disposición de la competitividad; sin embargo, para hacerlo, es necesario que los datos estén «listos para ser utilizados«, con independencia de su naturaleza, procedencia y del uso práctico que las empresas pretenden darles, desde la business intelligence al entrenamiento de modelos de machine learning. La data ingestion sirve precisamente para esto.
El significado de Data Ingestion
De las múltiples definiciones de data ingestion, consideramos especialmente acertada la de TechTarget según la cual se trata de un “proceso de adquisición e importación de datos para su uso inmediato o para su almacenamiento en una base de datos”. Por tanto, es un proceso, una secuencia estructurada de actividades que tiene como fin la adquisición, preparación y transmisión de datos para su uso directo o para su almacenamiento.
En este sentido, muchos hablan de ingestión de datos pipeline, para enfatizar aún más su naturaleza de flujo de trabajo estructurado. En cambio, más complejo es diferenciar el concepto subyacente del de data pipeline, tanto es que varios operadores los consideran, de hecho, lo mismo. IBM, por su parte, tiene una visión muy detallada e identifica la ingestión como el primer paso de la arquitectura de data pipeline, que incluye actividades de extracción, control y validación de datos, seguidas por las fases de transformación de datos y de almacenamiento.
Data Ingestion, un proceso fundamental en la era de los datos
La data ingestion es un proceso fundamental, porque la información que sirve a la empresa (por ejemplo, para construir una visión de 360º del cliente, para tomar decisiones estratégicas…) no proviene de una única fuente, ni está disponible en formatos nativamente compatibles entre ellos.
En este sentido, la ingestión de datos representa la capa principal de cualquier arquitectura de integración y de análisis de datos: es la base del macrocosmo de la business intelligence, y también de las aplicaciones de machine learning, de la IA generativa y, más en general, de todos los proyectos que atañen a la ciencia de los datos.
La ingestión de datos, subraya IBM, cumple también un papel fundamental en la mejora de la calidad de los datos. Esto depende precisamente de las numerosas actividades de control y validación que forman parte del proceso y cuyo fin es garantizar la precisión de la información.
Los 5 pasos principales del proceso, desde el descubrimiento a la carga
En términos prácticos, ¿en qué consiste y cuáles son los pasos fundamentales del proceso (o pipeline) de la data ingestion? Por lo general, se dan cinco pasos:
- Descubrimiento
Es la fase de exploración, en la que la empresa crea un mapa de sus datos e identifica fuentes, tipos y formatos. Esta fase permite entender los elementos fundamentales como la estructura, la calidad y el potencial de sus datos.
- Adquisición
Una fase muy compleja porqué, como se ha dicho anteriormente, las fuentes suelen ser múltiples y heterogéneas, desde bases de datos a hojas de cálculo, pasando por streaming de datos y documentos en papel. Una correcta adquisición de los datos es esencial para que los datos sean realmente útiles para los fines de la empresa. Todo el proceso se puede realizar de tres maneras diferentes: batch, en tiempo real y lambda, que combina las ventajas de los dos métodos anteriores.
- Validación
Los datos pasan por varias comprobaciones para verificar su precisión y coherencia.
- Transformación
Los datos se modifican para adaptarlos a tareas de procesamiento adicionales. Se prevén varias actividades, en función del punto de partida y de los objetivos del proyecto: por ejemplo, la estandarización y la normalización.
- Carga
Por último, los datos se cargan en la estructura de almacenamiento, típicamente (pero no solo) un almacén de datos.