Erstellen einer quellgesteuerten Pipeline

In Azure Databricks können Sie eine Pipeline und den gesamten dazugehörigen Code versionskontrollieren. Durch die Quellcodeverwaltung aller Dateien, die Ihrer Pipeline zugeordnet sind, werden Änderungen an Ihrem Transformationscode, dem Explorationscode und der Pipelinekonfiguration alle in Git versioniert und können in der Entwicklung getestet und sicher in der Produktion bereitgestellt werden.

Eine quellgesteuerte Pipeline bietet die folgenden Vorteile:

  • Rückverfolgbarkeit: Erfassen Sie jede Änderung im Git-Verlauf.
  • Tests: Überprüfen sie Pipelineänderungen in einem Entwicklungsarbeitsbereich, bevor Sie zu einem freigegebenen Produktionsarbeitsbereich wechseln. Jeder Entwickler verfügt über eine eigene Entwicklungspipeline auf einer eigenen Code-Verzweigung in einem Git-Ordner und in einem eigenen Schema.
  • Zusammenarbeit: Wenn die individuelle Entwicklung und tests abgeschlossen sind, werden Codeänderungen an die Hauptproduktionspipeline weitergeleitet.
  • Governance: Richten Sie sich an unternehmenseigene CI/CD- und Bereitstellungsstandards aus.

Azure Databricks ermöglicht es Pipelines und deren Quelldateien, mithilfe von Deklarativen Automatisierungsbundle zusammen zu steuern. Bei Paketen wird die Pipelinekonfiguration in Form von YAML-Konfigurationsdateien zusammen mit den Python- oder SQL-Quelldateien einer Pipeline versionskontrolliert. Ein Bündel kann eine oder mehrere Pipelines sowie andere Ressourcentypen aufweisen, z. B. Aufträge.

Auf dieser Seite wird gezeigt, wie Sie eine quellcodegesteuerte Pipeline mit Deklarativen Automatisierungs-Bundles (früher als Databricks Asset Bundles bezeichnet) einrichten. Weitere Informationen zu Bundles finden Sie unter What are Declarative Automation Bundles?.

Anforderungen

Um eine quellgesteuerte Pipeline zu erstellen, müssen Sie bereits Folgendes haben:

Erstellen Sie eine neue Pipeline in einem Bundle

Hinweis

Databricks empfiehlt, eine Pipeline zu erstellen, die von Beginn an mit Quellcodeverwaltung arbeitet. Alternativ können Sie eine vorhandene Pipeline zu einem Bundle hinzufügen, das bereits quellgesteuert ist. Siehe Migrieren vorhandener Ressourcen zu einem Bündel.

So erstellen Sie eine neue quellekontrollierte Pipeline:

  1. Klicken Sie oben auf der Randleiste auf das Plussymbol.Neu und wählen Sie dann das Pipelinesymbol aus.ETL-Pipeline.

  2. Nehmen Sie alle Gewünschten Änderungen am Pipelinenamen oder -schema vor. Siehe Erstellen einer neuen ETL-Pipeline.

  3. Klicken Sie auf das Kebab-Menüsymbol. Menü (rechts neben dem Codesymbol).Verwenden Sie die Beispielcodeschaltfläche ) und wählen Sie das Pipelinewürfelsymbol aus.Richten Sie sie als quellcodegesteuert ein.

  4. Klicken Sie auf "Neues Projekt erstellen", und wählen Sie dann einen Git-Ordner aus, in dem Sie Ihren Code und Ihre Konfiguration ablegen möchten:

    Neues Projekt

  5. Klicke auf Weiter.

  6. Geben Sie Folgendes im Dialogfeld " Asset Bundle erstellen " ein:

    • Paketname: Der Name des Bündels.
    • Anfänglicher Katalog: Der Name des Katalogs, der das zu verwendende Schema enthält.
    • Verwenden Sie ein persönliches Schema: Lassen Sie dieses Kontrollkästchen aktiviert, wenn Sie Bearbeitungen in ein persönliches Schema isolieren möchten. Wenn Benutzer in Ihrer Organisation an demselben Projekt zusammenarbeiten, überschreiben Sie die Änderungen in Dev nicht gegenseitig.
    • Initial language: Die anfängliche Sprache für die Beispieldateien der Projektpipeline, entweder Python oder SQL.

    Neues Bundle

  7. Klicken Sie auf "Erstellen" und "Bereitstellen". Ein Bündel mit einer Pipeline wird im Git-Ordner erstellt.

Erkunden Sie das Pipelinepaket

Erkunden Sie als Nächstes das Pipeline-Bundle, das erstellt wurde.

Das Bundle, das sich im Git-Ordner befindet, enthält Bündelsystemdateien und die databricks.yml Datei, die Variablen, Zielarbeitsbereich-URLs und Berechtigungen sowie andere Einstellungen für das Bundle definiert. Da databricks.yml sich im Stammverzeichnis des Pakets befindet (dem übergeordneten Element des Pipeline-Stammverzeichnisses), wechseln Sie im Asset-Browser der Pipeline zur Registerkarte Alle Dateien, um es zu sehen. Im resources Ordner eines Bündels sind Definitionen für Ressourcen wie Pipelines und Aufträge enthalten.

Bündeln in einem Git-Ordner

Öffnen Sie den resources Ordner, und klicken Sie dann auf die Schaltfläche des Pipeline-Editors, um die quellcodegesteuerte Pipeline anzuzeigen:

Pipeline-Editor öffnen

Bündel mit Pipeline-Baum

Das Beispielpipelinebundle enthält die folgenden Dateien:

  • Ein Beispiel für ein Erkundungsnotizbuch

  • Zwei Beispielcodedateien, die Transformationen in Tabellen ausführen

  • Beispielcodedatei, die eine Hilfsfunktion enthält

  • Eine YAML-Auftragskonfigurationsdatei, die den Auftrag im Bundle definiert, in dem die Pipeline ausgeführt wird.

  • Eine YaML-Pipelinekonfigurationsdatei, die die Pipeline definiert

    Von Bedeutung

    Sie müssen diese Datei bearbeiten, um alle Konfigurationsänderungen an der Pipeline dauerhaft beizubehalten, einschließlich änderungen, die über die Benutzeroberfläche vorgenommen wurden, andernfalls werden UI-Änderungen überschrieben, wenn das Bündel erneut bereitgestellt wird. Wenn Sie beispielsweise einen anderen Standardkatalog für die Pipeline festlegen möchten, bearbeiten Sie das catalog Feld in dieser Konfigurationsdatei.

  • Eine README-Datei mit zusätzlichen Details zum Beispielpipelinebundle und Anweisungen zum Ausführen der Pipeline

Informationen zu Pipelinedateien finden Sie im Pipelineobjektbrowser.

Weitere Informationen zum Erstellen und Bereitstellen von Änderungen am Pipelinebundle finden Sie unter Autorbundle im Arbeitsbereich und Bereitstellen von Bündeln und Ausführen von Workflows aus dem Arbeitsbereich.

Führen Sie die Pipeline aus.

Sie können entweder einzelne Transformationen oder die gesamte quellgesteuerte Pipeline ausführen:

  • Um eine einzelne Transformation in der Pipeline auszuführen und in der Vorschau anzusehen, wählen Sie die Transformationsdatei im Arbeitsbereich-Browser-Baum aus, um sie im Datei-Editor zu öffnen. Klicken Sie oben im Editor auf die Schaltfläche "Datei ausführen".
  • Um alle Transformationen in der Pipeline auszuführen, klicken Sie oben rechts im Databricks-Arbeitsbereich auf die Schaltfläche "Pipeline ausführen ".

Weitere Informationen zum Ausführen von Pipelines finden Sie unter Pipelinecode ausführen.

Aktualisieren der Pipeline

Sie können Artefakte in Ihrer Pipeline aktualisieren oder zusätzliche Explorationen und Transformationen hinzufügen, aber dann möchten Sie diese Änderungen an GitHub übertragen. Klicken Sie auf das Verzweigungssymbol.Git-Symbol, das mit dem Pipeline-Bundle verbunden ist, oder klicken Sie auf das Kebab-Menü für den Ordner und dann auf Git..., um auszuwählen, welche Änderungen gepusht werden sollen. Siehe Commit und Änderungen pushen.

Änderungen zu Git pushen

Wenn Sie Pipeline-Konfigurationsdateien aktualisieren oder Dateien zum Bundle hinzufügen oder daraus entfernen, werden diese Änderungen nicht im Ziel-Workspace wirksam, bis Sie das Bundle explizit deployen. Siehe Bereitstellen von Bündeln und Ausführen von Workflows aus dem Arbeitsbereich.

Hinweis

Databricks empfiehlt, das Standardsetup für quellgesteuerte Pipelines beizubehalten. Das Standardsetup ist so konfiguriert, dass Sie die YaML-Konfiguration des Pipelinepakets nicht bearbeiten müssen, wenn zusätzliche Dateien über die Benutzeroberfläche hinzugefügt werden.

Pipeline aktualisieren

Hinzufügen einer vorhandenen Pipeline zu einem Bündel

Um einem Bündel eine vorhandene Pipeline hinzuzufügen, erstellen Sie zuerst ein Bündel im Arbeitsbereich, und fügen Sie dann die YaML-Pipelinedefinition dem Bundle hinzu, wie auf den folgenden Seiten beschrieben:

Informationen zum Migrieren von Ressourcen zu einem Bündel mithilfe der Databricks CLI finden Sie unter Migrieren vorhandener Ressourcen zu einem Bundle.

Weitere Ressourcen

Weitere Lernprogramme und Referenzmaterial für Pipelines finden Sie unter Lakeflow Spark Declarative Pipelines.