Data ingestion: definizione a panoramica d'uso

Oggi, le aziende non si confrontano soltanto con le sfide legate al volume dei dati, ma anche (e soprattutto) alla loro estrema eterogeneità a livello di formati e sorgenti.

Alle sorgenti strutturate tradizionali si affianca infatti un mare magnum di contenuti non strutturati, file multimediali, streaming di dati IoT, log e report, che costituisce un ecosistema informativo molto variegato.

Lo scopo principale delle aziende è valorizzare il proprio (enorme) insieme di dati, mettendolo a disposizione della competitività; per farlo, tuttavia, è necessario che i dati siano “pronti ad essere usati” a prescindere dalla loro natura, provenienza e dall’impiego pratico che le aziende intendono farne, dalla business intelligence al training di modelli di machine learning. La data ingestion serve precisamente a questo.

Il significato di data ingestion

Delle molteplici definizioni di data ingestion, riteniamo particolarmente azzeccata quella di TechTarget, secondo cui si tratta di un “processo di acquisizione e importazione dei dati per l’uso immediato o per l’archiviazione in un database”. È dunque un processo, una sequenza strutturata di attività che ha come fine l’acquisizione, la preparazione e il trasferimento dei dati per la fruizione diretta o per lo storage.

A tal proposito, molti parlano di data ingestion pipeline per sottolinearne ulteriormente la natura di workflow strutturato. Più complesso, invece, è differenziare il concetto sottostante da quello di data pipeline, tanto più che diversi operatori li considerano di fatto la stessa cosa. IBM, dal canto suo, ha una visione molto dettagliata e identifica l’ingestion come il primo step dell’architettura di data pipeline, che comprende attività di estrazione, controllo e validazione dei dati, seguite dalle fasi di data transformation e di storage.

Data ingestion, un processo cardine nell’era dei dati

La data ingestion è un processo chiave perché le informazioni che servono all’azienda (es, per costruire una vista a 360° sul cliente, per prendere decisioni strategiche…) non provengono da un’unica sorgente né sono disponibili in formati nativamente compatibili tra di loro.

In tal senso, la data ingestion rappresenta il layer principale di qualsiasi architettura di integrazione e di analisi dei dati: è alla base del macrocosmo della business intelligence, ma anche delle applicazioni di machine learning, di AI generativa e, più in generale, di tutti i progetti che coinvolgono la data science.

La data ingestion, sottolinea IBM, ha poi un ruolo strumentale nel miglioramento della qualità del dato. Ciò dipende proprio dalle numerose attività di controllo e di validazione che fanno parte del processo e il cui fine è garantire l’accuratezza dell’informazione.

I 5 principali step del processo, dalla discovery al caricamento

In termini pratici, in cosa consiste e quali sono i passaggi chiave del processo (o pipeline) di data ingestion? Solitamente, si registrano cinque step:

Discovery

È la fase esplorativa, nella quale l’azienda crea una mappa dei propri dati e identifica sorgenti, tipologie e formati. Questa fase permette di comprendere elementi chiave come la struttura, la qualità e il potenziale dei propri dati.

Acquisizione

Una fase molto complessa perché, come anticipato, le sorgenti sono solitamente molteplici ed eterogenee, spaziando dai database ai fogli di calcolo fino ai dati in streaming e ai documenti cartacei. Una corretta acquisizione dei dati è essenziale per rendere i dati effettivamente utili agli scopi aziendali. L’intero processo può essere eseguito in tre modi: batch, in tempo reale e lambda, che combina i vantaggi di entrambi i metodi precedenti.

Validazione

I dati passano attraverso numerosi controlli al fine di verificarne l’accuratezza e la coerenza.

Trasformazione

I dati vengono modificati per adattarli a ulteriori attività di elaborazione. Sono previste diverse attività, a seconda del dato di partenza e degli obiettivi del progetto: vi rientrano, per esempio, la standardizzazione e la normalizzazione.