Condividi tramite


Concetti relativi a Structured Streaming

Apache Spark Structured Streaming è un motore di elaborazione quasi in tempo reale che offre tolleranza agli errori end-to-end con garanzie di elaborazione esattamente una volta utilizzando le familiari API di Spark. Structured Streaming consente di esprimere il calcolo su dati di streaming nello stesso modo in cui si esprime un calcolo batch su dati statici. Il motore Structured Streaming esegue il calcolo in modo incrementale e aggiorna continuamente il risultato man mano che arrivano dati di streaming.

Per un'esercitazione dettagliata, vedere Esegui il tuo primo carico di lavoro Structured Streaming.

Leggere da un flusso dei dati

Usare Structured Streaming per inserire dati in modo incrementale da origini dati supportate.

Feature Descrizione
Caricatore automatico Elaborare in modo incrementale ed efficiente nuovi file di dati man mano che arrivano nell'archiviazione cloud.
letture e scritture in streaming delle tabelle Delta Usare le tabelle Delta Lake come origini e destinazioni di streaming garantendo un'elaborazione eseguita esattamente una volta.
Connettori standard Connettersi a bus di messaggi, code e applicazioni aziendali usando connettori standard.
Dimensioni micro batch Limitare le frequenze di input per mantenere dimensioni batch coerenti e prevenire ritardi di elaborazione.

Scrivere in una destinazione dati

Configurare il modo in cui Structured Streaming distribuisce i dati ai sistemi di destinazione.

Feature Descrizione
Checkpoint Archiviare lo stato di elaborazione per consentire la tolleranza agli errori e la semantica di recapito esattamente una volta sola.
Modalità di output Scegliere tra le modalità di accodamento, aggiornamento e completamento per le query di streaming con stato.
Intervalli di trigger Regolare gli intervalli di trigger in modo da bilanciare la latenza e i costi per i requisiti di elaborazione.
Modalità in tempo reale in Structured Streaming Elaborare i dati per i carichi di lavoro in tempo reale con una latenza end-to-end bassa fino a cinque millisecondi.

Elaborazione con stato e senza stato

Le query senza stato elaborano le righe senza mantenere lo stato. Le query con stato mantengono lo stato intermedio per aggregazioni, join e deduplicazione.

Feature Descrizione
Query di streaming senza stato Ottimizzare le query che elaborano i dati senza mantenere lo stato intermedio.
Filigrane Controlla per quanto tempo Structured Streaming attende, nelle operazioni con stato, i dati che arrivano in ritardo.
Streaming con stato Gestisci aggregazioni, join tra flussi di dati e deduplicazione utilizzando operatori con stato.

Monitorare e gestire

Tenere traccia delle prestazioni delle query, applicare ottimizzazioni e gestire l'accesso ai dati per i carichi di lavoro Structured Streaming di produzione.

Feature Descrizione
Monitorare con StreamingQueryListener Tenere traccia dello stato delle query e delle metriche delle prestazioni usando l'interfaccia utente spark e l'API listener.
Gestire con Unity Catalog Configurare il catalogo Unity per i carichi di lavoro di streaming con governance e controllo degli accessi.