Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Wenn eine Pipelineaktualisierung ausgeführt wird, aktualisiert sie die materialisierten Ansichten und Streamingtabellen, die in der Pipeline definiert sind, damit ihre Ergebnisse den aktuellen Status der Quelldaten widerspiegeln. Wie ein Dataset aktualisiert wird, hängt vom Typ und dem Aktualisierungstyp ab. Informationen zum Auslösen und Verwalten von Updates finden Sie unter Ausführen eines Pipelineupdates.
Aktualisierungstypen
Standardmäßig wird jede materialisierte Ansichts- und Streamingtabelle in einer Pipeline mit jedem Update aktualisiert. In der folgenden Tabelle wird zusammengefasst, wie sich jeder Aktualisierungstyp verhält:
| Aktualisierungstyp | Materialisierte Sicht | Streamingtabelle |
|---|---|---|
| Aktualisieren (Standard) | Aktualisiert die Ergebnisse, um die aktuellen Ergebnisse der definierten Abfrage widerzuspiegeln. Azure Databricks untersucht die Kosten und führt eine inkrementelle Aktualisierung durch, wenn sie effizienter ist. | Verarbeitet neue Datensätze gemäß der in Streaming-Tabellen und -Flows definierten Logik. |
| Vollständige Aktualisierung | Komppiliert Ergebnisse, um die aktuellen Ergebnisse der definierenden Abfrage widerzuspiegeln. | Löscht Daten aus Streamingtabellen, löscht Prüfpunkte aus Flüssen und verarbeitet alle Datensätze aus der Datenquelle. |
| Zurücksetzen von Streamingflussprüfpunkten | Gilt nicht für materialisierte Ansichten. | Löscht Prüfpunkte aus Flüssen, löscht aber keine Daten aus Streamingtabellen und verarbeitet dann alle Datensätze aus der Datenquelle. |
Aktualisieren (Standard)
Eine Standardaktualisierung aktualisiert ein Dataset, um die aktuellen Ergebnisse der definierten Abfrage widerzuspiegeln.
Streamingtabellen sind von Natur aus inkrementell. Eine Aktualisierung einer Streamingtabelle wertet nur die Datensätze aus, die seit der letzten Aktualisierung eingegangen sind, und fügt sie mithilfe der aktuellen Definition der Tabelle an. Ältere Datensätze werden nicht erneut verarbeitet, sodass Änderungen, die sich auf bereits geschriebene Daten auswirken, nicht angewendet werden. Anders ausgedrückt: Eine Standardaktualisierung einer Streamingtabelle nimmt zugunsten geringerer Zeit- und Ressourcenkosten eine geringere Datenkorrektheit in Kauf. Um ältere Daten erneut zu verarbeiten, führen Sie eine vollständige Aktualisierung aus, oder setzen Sie die Ablaufprüfpunkte zurück.
Materialisierte Ansichten versuchen eine inkrementelle Aktualisierung, verarbeiten aber alle Datensätze bei Bedarf erneut, um die Tabelle vollständig korrekt zu halten. Eine materialisierte Ansicht wird mit einer von zwei Methoden aktualisiert:
- Bei der inkrementellen Aktualisierung werden die Änderungen seit der letzten Aktualisierung identifiziert und nur die neuen oder geänderten Daten zusammengeführt.
- Die vollständige Aktualisierung führt die gesamte Abfrage aus und ersetzt die vorhandenen Daten, wenn eine inkrementelle Aktualisierung nicht möglich ist oder nicht kostenwirksam ist.
Standardmäßig verwendet Azure Databricks ein Kostenmodell, um die kostengünstigere Methode auszuwählen. Sie können diese Auswahl mit einer Aktualisierungsrichtlinie überschreiben. Informationen zu semantischen, Anforderungen und unterstützten SQL für die inkrementelle Aktualisierung finden Sie unter Inkrementelle Aktualisierung für materialisierte Ansichten.
Vollständige Aktualisierung
Eine vollständige Aktualisierung verarbeitet alle Datensätze aus den Quelldaten über die Logik, die das Dataset definiert:
- Bei einer materialisierten Ansicht komputet eine vollständige Aktualisierung das gesamte Ergebnis neu. Da materialisierte Ansichten immer dasselbe Ergebnis wie eine Batchabfrage zurückgeben, erzeugen eine Standardaktualisierung und eine vollständige Aktualisierung identische Daten.
- Bei einer Streamingtabelle wird bei einer vollständigen Aktualisierung die Tabelle geleert, die Streaming-Checkpoints der zugehörigen Flows werden gelöscht und jeder Datensatz aus der Quelle wird erneut verarbeitet.
Da eine vollständige Aktualisierung alle Quelldaten neu verarbeitet, steigen Zeit- und Kostenaufwand mit der Größe dieser Datenmenge. Databricks empfiehlt, eine vollständige Aktualisierung nur bei Bedarf auszuführen, z. B. wenn eine Definition oder Schemaänderung nicht mit den vorhandenen Daten kompatibel ist. Eine vollständige Aktualisierung einer Streamingtabelle kann Datensätze verwerfen, wenn die Quelle die ursprünglichen Daten nicht mehr aufbewahrt, z. B. ein Kafka-Topic, dessen Aufbewahrungszeitraum abgelaufen ist.
Wann und wie Eine vollständige Aktualisierung einer Streamingtabelle ausgeführt wird, finden Sie unter "Vollständige Aktualisierung für Streamingtabellen".
Prüfpunkte zurücksetzen
Das Zurücksetzen von Prüfpunkten gilt nur für Streamingtabellen. Es löscht die Streamingprüfpunkte für ausgewählte Flüsse, ohne die bereits in die Streamingtabelle geschriebenen Daten zu löschen, und verarbeitet dann alle Datensätze aus der Quelle über diese Flüsse. Im Gegensatz zu einer vollständigen Aktualisierung werden die vorhandenen Tabellendaten beibehalten.
Verwenden Sie diese Option, wenn Sie eine Streamingquelle für ausgewählte Flüsse erneut verarbeiten möchten, z. B. nach dem Ändern der Logik eines Flusses, ohne die Tabelle abschneiden zu müssen.
Das Zurücksetzen von Checkpoints wird über die REST-API von Lakeflow Spark Declarative Pipelines ausgelöst. Die Schritte finden Sie unter "Starten eines Pipelineupdates", um die Prüfpunkte für selektive Streamingflüsse zu löschen.