Concetti relativi a Structured Streaming

Apache Spark Structured Streaming è un motore di elaborazione quasi in tempo reale che offre tolleranza agli errori end-to-end con garanzie di elaborazione esattamente una volta utilizzando le familiari API di Spark. Structured Streaming consente di esprimere il calcolo su dati di streaming nello stesso modo in cui si esprime un calcolo batch su dati statici. Il motore Structured Streaming esegue il calcolo in modo incrementale e aggiorna continuamente il risultato man mano che arrivano dati di streaming.

Per un'esercitazione dettagliata, vedere Esegui il tuo primo carico di lavoro Structured Streaming.

Leggere da un flusso dei dati

Usare Structured Streaming per inserire dati in modo incrementale da origini dati supportate.

Feature	Descrizione
Caricatore automatico	Elaborare in modo incrementale ed efficiente nuovi file di dati man mano che arrivano nell'archiviazione cloud.
letture e scritture in streaming delle tabelle Delta	Usare le tabelle Delta Lake come origini e destinazioni di streaming garantendo un'elaborazione eseguita esattamente una volta.
Connettori standard	Connettersi a bus di messaggi, code e applicazioni aziendali usando connettori standard.
Dimensioni micro batch	Limitare le frequenze di input per mantenere dimensioni batch coerenti e prevenire ritardi di elaborazione.

Scrivere in una destinazione dati

Configurare il modo in cui Structured Streaming distribuisce i dati ai sistemi di destinazione.

Feature	Descrizione
Checkpoint	Archiviare lo stato di elaborazione per consentire la tolleranza agli errori e la semantica di recapito esattamente una volta sola.
Modalità di output	Scegliere tra le modalità di accodamento, aggiornamento e completamento per le query di streaming con stato.
Intervalli di trigger	Regolare gli intervalli di trigger in modo da bilanciare la latenza e i costi per i requisiti di elaborazione.
Modalità in tempo reale in Structured Streaming	Elaborare i dati per i carichi di lavoro in tempo reale con una latenza end-to-end bassa fino a cinque millisecondi.

Elaborazione con stato e senza stato

Le query senza stato elaborano le righe senza mantenere lo stato. Le query con stato mantengono lo stato intermedio per aggregazioni, join e deduplicazione.

Feature	Descrizione
Query di streaming senza stato	Ottimizzare le query che elaborano i dati senza mantenere lo stato intermedio.
Filigrane	Controlla per quanto tempo Structured Streaming attende, nelle operazioni con stato, i dati che arrivano in ritardo.
Streaming con stato	Gestisci aggregazioni, join tra flussi di dati e deduplicazione utilizzando operatori con stato.

Monitorare e gestire

Tenere traccia delle prestazioni delle query, applicare ottimizzazioni e gestire l'accesso ai dati per i carichi di lavoro Structured Streaming di produzione.

Feature	Descrizione
Monitorare con StreamingQueryListener	Tenere traccia dello stato delle query e delle metriche delle prestazioni usando l'interfaccia utente spark e l'API listener.
Gestire con Unity Catalog	Configurare il catalogo Unity per i carichi di lavoro di streaming con governance e controllo degli accessi.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-04-11