Data Pipeline: che cos'è e perché implementarla

Molte imprese stanno affrontando la trasformazione verso la data-driven company, un modello d’impresa che basa le proprie decisioni sui dati, o meglio sugli insight derivanti dall’analisi dei dati a propria disposizione. Gli obiettivi del percorso sono molto chiari: migliorando gli esiti delle decisioni, le aziende puntano a ottimizzare i loro processi, a ridurre i costi, ad aumentare la competitività e, non da ultimo, a consolidare la propria posizione sul mercato.

Qualsiasi organizzazione moderna dispone di ampi volumi di dati su cui condurre analisi approfondite. Tuttavia, nonostante la promessa di una maggiore competitività, solo una ridotta percentuale di esse è davvero data-driven; precisamente, il 23.9%, stando a NewVantage Partners. Una delle motivazioni è la carenza di competenze necessarie per i progetti di data science, ovvero – in altri termini – per trasformare enormi volumi di dati grezzi (ed eterogenei, strutturati e non) in informazioni, poi in conoscenza e quindi in valore tangibile.

Il percorso che va dal dato grezzo all’informazione è una data pipeline.

Data Pipeline come pilastro dei progetti di data science

Formalmente, la data pipeline può essere descritta come il processo (o il metodo) adottato dall’azienda che parte dall’acquisizione dei dati grezzi da diverse sorgenti (database SQL e NoSQL, file, IoT…) ed effettua molteplici operazioni sugli stessi con l’obiettivo di renderli fruibili per le analisi all’interno di repository come i data lake o i data warehouse. In tal senso, la data pipeline abilita la trasformazione del dato in informazione fruibile dagli utenti finali, ed è quindi essenziale nel percorso delle imprese verso la data-driven company.

La data pipeline è necessaria a causa (soprattutto) dell’estrema eterogeneità dei dati aziendali, che di fatto non sono pronti per l’utilizzo immediato e necessitano di elaborazioni finalizzate alla standardizzazione e all’integrazione. Posti i requisiti di business, ovvero le informazioni che l’azienda si aspetta di ottenere dai propri dati, spetta ai professionisti della data science (scientist, analyst, engineer) progettare e implementare una pipeline scalabile, il più possibile automatizzata e che offra risultati in tempi adeguati, che oggi possono spingersi fino al tempo reale.

Data Pipeline: architettura e differenze con ETL

Tipicamente, l’architettura di una data pipeline si compone di tre elementi, o fasi principali:

l’ingestion, o raccolta dei dati;
i processi di trasformazione dei dati;
lo storage.

L’architettura appena descritta spiega perché le espressioni data pipeline e pipeline ETL (Extract, Transform, Load) siano spesso usate in modo intercambiabile nonostante non rappresentino lo stesso concetto.

Formalmente, la pipeline ETL è una tipologia, o sottocategoria di data pipeline, si basa su una sequenza rigida di operazioni e sull’elaborazione batch, con l’obiettivo di caricare i dati in un data warehouse per le analisi aziendali. La data pipeline è invece un concetto più ampio e flessibile: ha in sé (anche) il principio dell’elaborazione realtime, può includere operazioni extra come la convalida dei dati e la gestione degli errori e può essere impiegato per molteplici scopi, come l’alimentazione di data lake.

Come funziona una tipica data pipeline

Tipicamente, una data pipeline si articola in una serie di passaggi che, come detto, partono dal dato grezzo e lo rendono fruibile per attività di analisi e di supporto decisionale. Le pipeline vengono definite dall’azienda in funzione dei dati su cui lavorare e, soprattutto, degli obiettivi del progetto. Gli elementi cardine di una pipeline sono quattro.

Estrazione dei dati

Il primo passo riguarda l’estrazione dei dati grezzi da svariate fonti: tabelle di database, fogli di calcolo, documenti non strutturati come immagini, codice, dati IoT e molto altro.

Data governance

Ai dati vanno applicate regole di governance per garantirne la qualità (la qualità del dato è un tema centrale in qualsiasi progetto di data science), l’integrità e la sicurezza.

Trasformazione dei dati

La trasformazione dei dati è l’area chiave delle data pipeline. L’obiettivo è modificarli al fine di ottenere un formato corretto e di renderli fruibili per qualsiasi genere di analisi. Il processo può includere diversi passaggi, come quelli rivolti alla standardizzazione, deduplicazione, mascheramento, verifica, filtraggio e aggregazione.

Condivisione dei dati

Una volta trasformati, i dati possono essere archiviati in un repository locale o in cloud per la condivisione, l’analisi e la visualizzazione dei dati, che attraverso report e cruscotti di sintesi indirizza le decisioni più importanti e accelera il percorso verso la data-driven company.