Charger et traiter des données de manière incrémentielle avec des flux de pipelines déclaratifs Spark Lakeflow

Les données sont traitées dans des pipelines à travers des flux. Chaque flux se compose d’une requête et, généralement, d’une cible. Le processus de flux traite la requête, soit en tant que lot, soit de manière incrémentielle comme un flux de données vers la cible. Un flux réside au sein d'un pipeline dans Lakeflow Spark Declarative Pipelines.

En règle générale, les flux sont définis automatiquement lorsque vous créez une requête dans un pipeline qui met à jour une cible, mais vous pouvez également définir explicitement des flux supplémentaires pour un traitement plus complexe, comme l’ajout à une cible unique à partir de plusieurs sources.

Mises à jour

Un flux de travail est exécuté chaque fois que le pipeline qui le définit est mis à jour. Le flux crée ou met à jour des tables avec les données les plus récentes disponibles. Selon le type de flux et l’état des modifications apportées aux données, la mise à jour peut effectuer une actualisation incrémentielle, qui traite uniquement les nouveaux enregistrements ou effectue une actualisation complète, qui retraite tous les enregistrements de la source de données.

Pour plus d’informations sur les mises à jour de pipeline, consultez Exécuter une mise à jour de pipeline.
Pour plus d’informations sur la planification et le déclenchement des mises à jour, consultez Le mode de pipeline continu et déclenché.

Flux par défaut et flux d’ajout

Lorsque vous créez une requête dans un pipeline qui met à jour une cible, un flux par défaut est défini automatiquement. Pour une table de diffusion en continu, le flux par défaut est un flux d’ajout qui ajoute de nouvelles lignes avec chaque mise à jour et a le même nom que la cible. La création d’un flux et de sa cible en une seule étape est le moyen le plus courant d’utiliser des pipelines, et vous pouvez l’utiliser pour ingérer ou transformer des données.

Vous pouvez également définir des flux séparément d’une cible, ce qui permet à plusieurs flux d’ajouter des données à une seule cible. Cela est utile lorsque vous devez :

Ajoutez des sources de diffusion en continu qui s’ajoutent à une table de diffusion en continu existante sans nécessiter une actualisation complète.
Renseigner une table de streaming avec les données historiques manquantes.
Combinez des données de plusieurs sources sans utiliser de UNION clause.

Pour obtenir des exemples de création de flux par défaut et explicites, consultez Utiliser des flux dans des pipelines déclaratifs Spark Lakeflow.

Types de flux

Les flux par défaut pour les tables de streaming et les vues matérialisées sont des flux d’ajout. Vous pouvez également créer des flux pour lire à partir de sources de capture de données modifiées. Le tableau suivant décrit les différents types de flux.

Type de flux	Description
Ajouter	Les flux d’ajout sont le type de flux le plus courant, où de nouveaux enregistrements dans la source sont écrits dans la cible avec chaque mise à jour. Ils correspondent au mode d’ajout en streaming structuré. Vous pouvez ajouter l’indicateur `ONCE` , indiquant une requête par lot dont les données doivent être insérées dans la cible une seule fois, sauf si la cible est entièrement actualisée. Un nombre quelconque de flux d’ajout peut écrire dans une cible particulière. Les flux par défaut (créés avec la table de diffusion en continu cible ou la vue matérialisée) ont le même nom que la cible. Les autres cibles n’ont pas de flux par défaut.
Auto CDC (précédemment appliquer les modifications)	Un processus Auto CDC ingère une requête contenant des données de capture de modifications des données (CDC). Les flux CDC automatiques peuvent uniquement cibler des tables de diffusion en continu, et la source doit être une source de diffusion en continu (même dans le cas des flux `ONCE`). Plusieurs flux CDC automatiques peuvent cibler une table de streaming unique. Une table de diffusion en continu qui agit comme cible pour un flux de capture de données modifiées automatique ne peut être ciblée que par d’autres flux de capture de données modifiées automatiques. Pour plus d’informations sur les données CDC, consultez les APIs CDC AUTO : Simplifiez la capture de données modifiées avec des pipelines.
Mise à jour (aperçu public)	Update produit en sortie des agrégats de flux globaux sans watermark vers une destination, en émettant uniquement les enregistrements qui ont changé dans chaque lot. Les flux de mise à jour sont disponibles uniquement dans Python. Voir update_flow.

Ressources additionnelles

Pour plus d’informations sur les flux et leur utilisation, consultez les rubriques suivantes :

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-06-23