Entwickeln und Debuggen von ETL-Pipelines mit dem Lakeflow Pipelines Editor

In diesem Artikel wird die Verwendung des Lakeflow Pipelines Editors zum Entwickeln und Debuggen von ETL-Pipelines (Extrahieren, Transformieren und Laden) in Lakeflow Spark Declarative Pipelines (SDP) beschrieben.

Was ist der Lakeflow Pipelines Editor?

Der Lakeflow Pipelines Editor ist eine IDE, die für die Entwicklung von Pipelines entwickelt wurde. Es kombiniert alle Pipelineentwicklungsaufgaben auf einer einzigen Oberfläche, unterstützt Code-first-Workflows, ordnerbasierte Codeorganisation, selektive Ausführung, Datenvorschauen und Pipelinediagramme. In die Azure Databricks-Plattform integriert, ermöglicht sie außerdem die Versionssteuerung, Codeüberprüfungen und geplante Ausführung.

Übersicht über die Benutzeroberfläche des Lakeflow-Pipelines-Editors

Die folgende Abbildung zeigt den Lakeflow Pipelines Editor:

Lakeflow Pipelines Editor

Die Abbildung zeigt die folgenden Features:

  1. Pipeline-Objektbrowser: Erstellen, Löschen, Umbenennen und Organisieren von Pipelineressourcen. Enthält auch Verknüpfungen zur Pipelinekonfiguration.
  2. Mehrdatei-Code-Editor mit Registerkarten: Arbeiten Sie über mehrere Codedateien, die einer Pipeline zugeordnet sind.
  3. Pipelinespezifische Symbolleiste: Umfasst Pipelinekonfigurationsoptionen und verfügt über Ausführungsaktionen auf Pipelineebene.
  4. Interaktives Pipelinediagramm: Verschaffen Sie sich einen Überblick über Ihre Tabellen, öffnen Sie die untere Leiste der Datenvorschau, und führen Sie andere tabellenbezogene Aktionen aus.
  5. Einblicke zur Ausführung auf Tabellenebene: Abrufen von Ausführungserkenntnissen für alle Tabellen oder eine einzelne Tabelle in einer Pipeline. Die Insights beziehen sich auf den neuesten Pipelineausführung.
  6. Problembereich: Dieses Feature fasst Fehler, Warnungen und Erkenntnisse in allen Dateien in der Pipeline zusammen, und Sie können zu dem Ort navigieren, an dem der Fehler in einer bestimmten Datei aufgetreten ist. Es ergänzt Code-angehängte Fehlerindikatoren.
  7. Selektive Ausführung: Der Code-Editor verfügt über Features für die schrittweise Entwicklung, z. B. die Möglichkeit, nur die Tabellen in der aktuellen Datei mithilfe der Aktion "Datei ausführen " zu aktualisieren oder eine einzelne Tabelle zu aktualisieren.
  8. Sparkle genie code icon. Genie Code: Erstellen, aktualisieren und debuggen Sie Ihre Pipelines mithilfe von Genie Code, einer agentischen Erfahrung, die mehrstufige Workflows automatisiert, von der Datenermittlung und codegenerierung bis hin zur Pipelineausführung und zum Beheben von Problemen mit der Datenqualität.

Weitere wichtige Features:

  • Datenvorschau: Überprüfen Sie die Daten Ihrer Streamingtabellen und materialisierten Ansichten.
  • Standard-Pipelineordnerstruktur: Neue Pipelines enthalten eine vordefinierte Ordnerstruktur und Beispielcode, die Sie als Ausgangspunkt für Ihre Pipeline verwenden können.

Erstellen einer neuen ETL-Pipeline

Führen Sie die folgenden Schritte aus, um eine neue ETL-Pipeline mit dem Lakeflow Pipelines Editor zu erstellen:

  1. Klicken Sie oben auf der Randleiste auf das Plussymbol.Neu und wählen Sie dann das Pipelinesymbol aus.ETL-Pipeline.

    Eine Pipeline wird automatisch mit den folgenden Standardeinstellungen erstellt:

    Sie können diese Einstellungen über die Werkzeugleiste der Pipeline anpassen.

  2. Geben Sie oben ihrer Pipeline einen eindeutigen Namen.

  3. Neben dem Namen werden der standardkatalog und das für Sie ausgewählte Schema angezeigt.

    Im Standardkatalog und im Standardschema werden Datasets ausgelesen oder in diese geschrieben, wenn Sie Datasets nicht mit einem Katalog oder Schema in Ihrem Code qualifizieren. Weitere Informationen finden Sie unter Datenbankobjekte in Azure Databricks .

    Klicken Sie auf den Katalog und das Schema, um die Standardwerte für Ihre Pipeline zu ändern.

  4. Ihre Pipeline verfügt standardmäßig über eine leere my_transformation Datei. Wechseln Sie diese Datei zwischen Python und SQL, indem Sie in der Dropdownliste "Sprache" auswählen. Schreiben Sie Code in dieser Datei direkt, oder wählen Sie eine der folgenden Optionen aus, um schnell loszulegen:

    • Sparkle genie code icon. Erstellen Sie mit Genie Code: Beschreiben Sie Ihre Pipeline mit natürlicher Sprache, und lassen Sie Es Genie Code für Sie erstellen.
    • Verwenden Sie Beispielcode: Erstellen Sie eine Standardordnerstruktur und Beispielcode in der Sprache der aktuellen Datei.

    Erweitern Sie für erweiterte Optionen das Kebab-Menüsymbol. Menü (rechts neben dem Codesymbol).Beispielcodeschaltfläche verwenden ) für:

    • Fügen Sie vorhandenen Quellcode hinzu: Ordnen Sie Ihre Pipeline Codedateien zu, die bereits in Ihrem Arbeitsbereich verfügbar sind, einschließlich Git-Ordnern.
    • Als quellcodeverwaltetes Projekt einrichten: Verwenden Sie ein Projekt für deklarative Automatisierungs-Bundles zur Quellcodeverwaltung und für die CI/CD-Unterstützung.
    • Verwenden Sie den Hive-Metaspeicher: Erstellen einer Pipeline mit älteren Einstellungen.

Alternativ können Sie eine ETL-Pipeline über den Arbeitsbereichsbrowser erstellen:

  1. Klicken Sie im linken Bereich auf "Arbeitsbereich ".
  2. Wählen Sie einen beliebigen Ordner aus, einschließlich Git-Ordnern.
  3. Klicken Sie in der oberen rechten Ecke auf "Erstellen ", und klicken Sie auf die ETL-Pipeline.

Sie können auch eine ETL-Pipeline auf der Seite "Aufträge und Pipelines" erstellen:

  1. Klicken Sie in Ihrem Arbeitsbereich auf das Symbol Aufträge & Pipelines in der Randleiste.
  2. Klicken Sie unter "Neu" auf "ETL-Pipeline".

Tipp

Die Databricks CLI stellt Befehle zum Erstellen, Ändern und Verwalten Ihrer Lakeflow Spark Declarative Pipelines Pipelines von einem Terminal aus bereit. Siehe pipelines Befehlsgruppe.

Öffnen einer vorhandenen ETL-Pipeline

Es gibt mehrere Möglichkeiten, eine vorhandene ETL-Pipeline im Lakeflow Pipelines Editor zu öffnen:

  • Öffnen Sie eine der Pipeline zugeordnete Quelldatei:

    1. Klicken Sie im Seitenbereich auf "Arbeitsbereich ".
    2. Navigieren Sie zu einem Ordner mit Quellcodedateien für Ihre Pipeline.
    3. Klicken Sie auf die Quellcodedatei, um die Pipeline im Editor zu öffnen.
  • Öffnen sie eine kürzlich bearbeitete Pipeline:

    • Im Editor können Sie zu anderen Pipelines navigieren, die Sie kürzlich bearbeitet haben, indem Sie oben im Objektbrowser auf den Namen der Pipeline klicken und eine andere Pipeline aus der angezeigten Liste der zuletzt verwendeten Pipeline auswählen.
    • Öffnen Sie von außerhalb des Editors auf der Seite "Zuletzt verwendete Elemente " auf der linken Randleiste eine Pipeline oder eine Datei, die als Quellcode für eine Pipeline konfiguriert ist.
  • Wenn Sie eine Pipeline im gesamten Produkt anzeigen, können Sie die Pipeline bearbeiten.

    • Klicken Sie auf der Pipelineüberwachungsseite auf das Bleistiftsymbol.Pipeline bearbeiten.
    • Klicken Sie in der linken Seitenleiste auf der Seite Jobs & Pipelines auf das Stiftsymbol, um die Pipeline zu bearbeiten.
    • Wenn Sie einen Auftrag bearbeiten und eine Pipelineaufgabe hinzufügen, können Sie beim Auswählen einer Pipeline unter open in new tab iconopen in new tab iconPipeline auf die Schaltfläche " öffnen" klicken.
  • Wenn Sie alle Dateien im Objektbrowser durchsuchen und eine Quellcodedatei aus einer anderen Pipeline öffnen, wird oben im Editor ein Banner angezeigt, in dem Sie aufgefordert werden, diese zugeordnete Pipeline zu öffnen.

Pipeline-Objektbrowser

Wenn Sie eine Pipeline bearbeiten, verwendet die linke Arbeitsbereich-Randleiste einen speziellen Modus, der als Pipelineobjektbrowser bezeichnet wird. Standardmäßig konzentriert sich der Pipelineobjektbrowser auf den Pipelinestamm sowie auf Ordner und Dateien innerhalb des Stamms. Sie können auch auswählen, dass alle Dateien angezeigt werden, um Dateien außerhalb des Stamms der Pipeline anzuzeigen. Die im Pipeline-Editor geöffneten Registerkarten während der Bearbeitung einer bestimmten Pipeline werden gespeichert. Wenn Sie zu einer anderen Pipeline wechseln, werden die Registerkarten wiederhergestellt, die beim letzten Bearbeiten dieser Pipeline geöffnet waren.

Hinweis

Der Editor verfügt außerdem über Kontexte zum Bearbeiten von SQL-Dateien (als "Databricks SQL Editor" bezeichnet) und einen allgemeinen Kontext zum Bearbeiten von Arbeitsbereichsdateien, die keine SQL-Dateien oder Pipelinedateien sind. Jeder dieser Kontexte merkt sich die Registerkarten, die Sie beim letzten Mal in diesem Kontext geöffnet hatten, und stellt sie wieder her. Sie können den Kontext vom oberen Rand der linken Randleiste wechseln. Klicken Sie auf die Kopfzeile, um zwischen Arbeitsbereich, SQL-Editor oder kürzlich bearbeiteten Pipelines auszuwählen.

Wechseln von Editorkontexten

Wenn Sie eine Datei über die Arbeitsbereich-Browserseite öffnen, wird sie im entsprechenden Editor für diese Datei geöffnet. Wenn die Datei einer Pipeline zugeordnet ist, ist dies der Lakeflow Pipelines Editor.

Um eine Datei zu öffnen, die nicht Teil der Pipeline ist, aber den Pipelinekontext beibehalten möchten, öffnen Sie die Datei auf der Registerkarte "Alle Dateien " des Objektbrowsers.

Der Pipeline-Asset-Browser verfügt über zwei Registerkarten.

  • Pipeline: Hier finden Sie alle Dateien, die der Pipeline zugeordnet sind. Sie können sie in Ordnern erstellen, löschen, umbenennen und organisieren. Diese Registerkarte enthält auch Verknüpfungen zur Pipelinekonfiguration und eine grafische Ansicht der letzten Durchläufe.
  • Alle Dateien: Alle anderen Arbeitsbereichsressourcen sind hier verfügbar. Dies kann hilfreich sein, um Dateien zu finden, die der Pipeline hinzugefügt werden sollen, oder zum Anzeigen anderer Dateien im Zusammenhang mit der Pipeline, z. B. eine YAML-Datei, die ein deklaratives Automatisierungsbundle definiert.

Pipeline-Objektbrowser

Sie können die folgenden Dateitypen in Ihrer Pipeline haben:

  • Quellcodedateien: Diese Dateien sind Teil der Quellcodedefinition der Pipeline, die in den Einstellungen angezeigt werden kann. Databricks empfiehlt, Quellcodedateien immer im Pipelinestammordner zu speichern; andernfalls werden sie in einem externen Dateiabschnitt am unteren Rand des Browsers angezeigt und verfügen über einen weniger umfangreichen Featuresatz.
  • Nicht-Quellcodedateien: Diese Dateien werden im Pipelinestammordner gespeichert, sind jedoch nicht Teil der Pipelinequellcodedefinition.

Von Bedeutung

Sie müssen den Pipelineobjektbrowser auf der Registerkarte "Pipeline " verwenden, um Dateien und Ordner für Ihre Pipeline zu verwalten. Dadurch werden die Pipelineeinstellungen ordnungsgemäß aktualisiert. Durch Verschieben oder Umbenennen von Dateien und Ordnern aus Ihrem Arbeitsbereichsbrowser oder der Registerkarte "Alle Dateien " wird die Pipelinekonfiguration unterbrochen, und Sie müssen dies dann manuell in den Einstellungen auflösen.

Stammordner

Der Pipelineobjektbrowser ist in einem Pipelinestammordner verankert. Wenn Sie eine neue Pipeline erstellen, wird der Stammordner der Pipeline in Ihrem persönlichen Ordner erstellt.

Sie können den Stammordner im Pipelineobjektbrowser ändern. Dies ist nützlich, wenn Sie eine Pipeline in einem Ordner erstellt haben und später alles in einen anderen Ordner verschieben möchten. Beispielsweise haben Sie die Pipeline in einem normalen Ordner erstellt und möchten den Quellcode in einen Git-Ordner für die Versionssteuerung verschieben.

  1. Klicken Sie auf das Kebab-Menüsymbol. Überlaufmenü für den Stammordner.
  2. Klicken Sie auf " Neuen Stammordner konfigurieren".
  3. Klicken Sie unter "Pipelinestammordner " auf ", und wählen Sie einen anderen Ordner als Pipelinestammordner aus.
  4. Klicken Sie auf "Speichern".

Pipline-Root-Ordner ändern

Im Kebab-Menüsymbol. Für den Stammordner können Sie auch auf " Stammordner umbenennen " klicken, um den Ordnernamen umzubenennen. Hier können Sie auch auf "Stammordner verschieben " klicken, um den Stammordner z. B. in einen Git-Ordner zu verschieben.

Sie können auch den Hauptordner der Pipeline in den Einstellungen ändern.

  1. Klicken Sie auf Einstellungen.
  2. Klicken Sie unter "Coderessourcen " auf "Pfade konfigurieren".
  3. Klicken Sie auf , um den Ordner unter "Pipelinestammordner" zu ändern.
  4. Klicken Sie auf "Speichern".

Hinweis

Wenn Sie den Pipelinestammordner ändern, ist die vom Pipelineobjektbrowser angezeigte Dateiliste betroffen, da die Dateien im vorherigen Stammordner als externe Dateien angezeigt werden.

Bestehende Pipeline ohne Stammordner

Eine vorhandene Pipeline, die mit der Bearbeitungsoberfläche des legacy-Notizbuchs erstellt wurde, hat keinen Stammordner konfiguriert. Wenn Sie eine Pipeline öffnen, die keinen Stammordner konfiguriert hat, führen Sie die folgenden Schritte aus, wenn Sie den Stammordner für Ihre Pipeline konfigurieren möchten:

  1. Klicken Sie im Pipelineobjektbrowser auf "Konfigurieren".
  2. Klicken Sie auf , um den Stammordner unter "Pipelinestammordner" auszuwählen.
  3. Klicken Sie auf "Speichern".

Kein Pipeline-Stammverzeichnis

Standardordnerstruktur

Wenn Sie eine neue Pipeline erstellen, wird eine Standardordnerstruktur erstellt. Dies ist die empfohlene Struktur zum Organisieren Ihrer Pipeline-Quell- und Nicht-Quellcodedateien, wie unten beschrieben.

In dieser Ordnerstruktur werden eine kleine Anzahl von Beispielcodedateien erstellt.

Ordnername Empfohlener Speicherort für diese Dateitypen
<pipeline_root_folder> Stammordner, der alle Ordner und Dateien für Ihre Pipeline enthält.
transformations Quellcodedateien, z. B. Python- oder SQL-Codedateien mit Tabellendefinitionen.
explorations Nicht-Quellcodedateien wie Notizbücher, Abfragen und Codedateien, die für explorative Datenanalysen verwendet werden.
utilities Nicht-Quellcodedateien mit Python-Modulen, die aus anderen Codedateien importiert werden können. Wenn Sie SQL als Sprache für Beispielcode auswählen, wird dieser Ordner nicht erstellt.

Sie können die Ordnernamen umbenennen oder die Struktur an Ihren Workflow anpassen. Führen Sie die folgenden Schritte aus, um einen neuen Quellcodeordner hinzuzufügen:

  1. Klicken Sie im Pipelineobjektbrowser auf "Hinzufügen ".
  2. Klicken Sie auf "Pipelinequellcodeordner erstellen".
  3. Geben Sie einen Ordnernamen ein, und klicken Sie auf "Erstellen".

Quellcodedateien

Quellcodedateien sind Teil der Quellcodedefinition der Pipeline. Wenn Sie die Pipeline ausführen, werden diese Dateien ausgewertet. Dateien und Ordner, die Teil der Quellcodedefinition sind, haben ein spezielles Symbol, auf dem ein Mini-Pipelinesymbol überlagert ist.

So fügen Sie eine neue Quellcodedatei hinzu:

  1. Klicken Sie auf das Plussymbol. Neben dem Stammordner.
  2. Klicken Sie auf "Transformation".
  3. Geben Sie einen Namen für die Datei ein, und wählen Sie Python oder SQL als Sprache aus.
  4. Klicken Sie auf "Erstellen".

Verwenden Sie die Inline-Hilfen, um über das Sparkle genie code icon. mit dem Schreiben von Code mit Genie Code zu beginnen oder kurze Codefragmente für den gewünschten Datensatztyp zu generieren (z. B. eine materialisierte Ansicht oder eine Streamingtabelle).

Ein transformations Ordner für Quellcode wird standardmäßig erstellt, wenn Sie eine neue Pipeline erstellen. Dieser Ordner ist der empfohlene Speicherort für Pipelinequellcode, z. B. Python- oder SQL-Codedateien mit Pipelinetabellendefinitionen.

Nicht-Quellcodedateien

Nicht-Quellcodedateien werden im Pipelinestammordner gespeichert, sind aber nicht Teil der Pipelinequellcodedefinition. Diese Dateien werden nicht ausgewertet, wenn Sie die Pipeline ausführen. Nicht-Quellcodedateien können keine externen Dateien sein.

Sie können dies für Dateien im Zusammenhang mit Ihrer Arbeit an der Pipeline verwenden, die Sie zusammen mit dem Quellcode speichern möchten. Beispiel:

  • Notizbücher, die Sie für Ad-hoc-Erkundungen verwenden, die auf Nicht-Lakeflow Spark Declarative Pipelines ausgeführt werden, werden außerhalb des Lebenszyklus einer Pipeline berechnet.
  • Python-Module, die nicht mit Ihrem Quellcode ausgewertet werden sollen, es sei denn, Sie importieren diese Module explizit in Ihre Quellcodedateien.

So fügen Sie eine neue Nicht-Quellcodedatei hinzu:

  1. Klicken Sie auf das Plussymbol. Neben dem Stammordner.
  2. Klicken Sie auf Erkunden oder Hilfsprogramm.
  3. Geben Sie einen Namen für die Datei ein.
  4. Klicken Sie auf "Erstellen".

Wenn Sie eine neue Pipeline erstellen, werden standardmäßig die folgenden Ordner für Nicht-Quellcodedateien erstellt:

Ordnername Description
explorations Dieser Ordner wird als empfohlener Speicherort für Notizbücher, Abfragen, Dashboards und andere Dateien empfohlen, mit denen Sie dann in einer nicht-Lakeflow Spark Declarative Pipelines-Umgebung arbeiten, so wie Sie es normalerweise außerhalb des Ausführungslebenszyklus einer Pipeline tun würden.
utilities Dieser Ordner ist der empfohlene Speicherort für Python-Module, die über direkte Importe from <filename> importaus anderen Dateien importiert werden können, sofern ihr übergeordneter Ordner hierarchisch unter dem Stammordner liegt.

Sie können auch Python-Module importieren, die sich außerhalb des Stammordners befinden, aber in diesem Fall müssen Sie den Ordnerpfad sys.path in Ihrem Python-Code anfügen:

import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

Externe Dateien

Im Abschnitt "Externe Dateien " des Pipelinebrowsers werden Quellcodedateien außerhalb des Stammordners angezeigt.

Führen Sie die folgenden Schritte aus, um eine externe Datei in den Stammordner zu verschieben, z. B. den transformations Ordner:

  1. Klicken Sie auf Kebab-Menü-Symbol, um die Datei im Bestandsbrowser zu öffnen, und klicken Sie auf Verschieben.
  2. Wählen Sie den Ordner aus, in den Sie die Datei verschieben möchten, und klicken Sie auf "Verschieben".

Dateien, die mehreren Pipelines zugeordnet sind

Ein Abzeichen wird in der Kopfzeile der Datei angezeigt, wenn eine Datei mehr als einer Pipeline zugeordnet ist. Es verfügt über eine Anzahl zugeordneter Pipelines und ermöglicht das Wechseln zu anderen.

Abschnitt "Alle Dateien"

Zusätzlich zum Abschnitt "Pipeline " gibt es einen Abschnitt "Alle Dateien ", in dem Sie eine beliebige Datei in Ihrem Arbeitsbereich öffnen können. Hier können Sie:

  • Öffnen Sie Dateien außerhalb des Stammordners auf einer Registerkarte, ohne den Lakeflow Pipelines-Editor zu verlassen.
  • Navigieren Sie zu den Quellcodedateien einer anderen Pipeline, und öffnen Sie sie. Dadurch wird die Datei im Editor geöffnet, und Sie erhalten ein Banner mit der Option, den Fokus im Editor auf diese zweite Pipeline zu setzen.
  • Verschieben sie Dateien in den Stammordner der Pipeline.
  • Fügen Sie Dateien außerhalb des Stammordners in die Pipelinequellcodedefinition ein.

Bearbeiten von Pipelinequelldateien

Wenn Sie eine Pipelinequelldatei über den Arbeitsbereichsbrowser oder den Pipelineobjektbrowser öffnen, wird sie auf einer Editor-Registerkarte im Lakeflow Pipelines-Editor geöffnet. Wenn Sie weitere Dateien öffnen, werden separate Registerkarten geöffnet, sodass Sie mehrere Dateien gleichzeitig bearbeiten können.

Hinweis

Wenn Sie eine Datei öffnen, die keiner Pipeline über den Arbeitsbereichsbrowser zugeordnet ist, wird der Editor in einem anderen Kontext geöffnet (entweder der allgemeine Arbeitsbereich-Editor oder für SQL-Dateien, der SQL-Editor).

Wenn Sie eine Nicht-Pipeline-Datei über die Registerkarte "Alle Dateien " des Pipelineobjektbrowsers öffnen, wird sie in einer neuen Registerkarte im Pipelinekontext geöffnet.

Der Pipelinequellcode enthält mehrere Dateien. Standardmäßig befinden sich die Quelldateien im Transformationsordner im Pipelineobjektbrowser. Quellcodedateien können Python-Dateien (*.py) oder SQL-Dateien (*.sql) sein. Ihre Quelle kann eine Mischung aus Python- und SQL-Dateien in einer einzigen Pipeline enthalten, und der Code in einer Datei kann auf eine Tabelle oder Ansicht verweisen, die in einer anderen Datei definiert ist.

Sie können auch Markdowndateien (*.md) in Ihren Tranformationsordner einschließen. Markdown-Dateien können für Dokumentationen oder Notizen verwendet werden, werden jedoch beim Ausführen eines Pipelineupdates ignoriert.

Die folgenden Features sind spezifisch für den Lakeflow Pipelines Editor:

Pipeline-Code bearbeiten

  1. Verbinden: Stellen Sie eine Verbindung zu serverloser oder klassischer Rechenleistung her, um die Pipeline auszuführen. Alle dateien, die der Pipeline zugeordnet sind, verwenden dieselbe Computeverbindung. Sobald Sie also eine Verbindung hergestellt haben, müssen Sie keine Verbindung für andere Dateien in derselben Pipeline herstellen. Weitere Informationen zu Computeoptionen finden Sie unter Computekonfigurationsoptionen.

    Bei Nicht-Pipelinedateien, z. B. einem explorativen Notizbuch, ist die Verbindungsoption verfügbar, gilt jedoch nur für diese einzelne Datei.

  2. Ausführen der Datei: Führen Sie den Code aus, um die in dieser Quelldatei definierten Tabellen zu aktualisieren. Im nächsten Abschnitt werden verschiedene Möglichkeiten zum Ausführen des Pipelinecodes beschrieben.

  3. Bearbeiten: Verwenden Sie das Sparkle Genie-Codesymbol. Genie Code zum Bearbeiten oder Hinzufügen von Code in der Datei.

  4. Schnellkorrektur: Verwenden Sie sparkle genie code icon. Genie Code, um Fehler zu beheben oder auf Erkenntnisse in Ihrem Code zu reagieren.

Der untere Bereich passt sich auch basierend auf der aktuellen Registerkarte an. Das Anzeigen von Pipelineinformationen im unteren Bereich ist immer verfügbar. Nicht pipelinebezogene Dateien, z. B. SQL-Editordateien, zeigen ihre Ausgabe auch im unteren Bereich auf einer separaten Registerkarte an. Die folgende Abbildung zeigt eine vertikale Registerkartenauswahl, um den unteren Bereich zwischen dem Anzeigen von Pipelineinformationen oder Informationen für das ausgewählte Notizbuch zu wechseln.

Vertikale Registerkartenauswahl für exploratives Notizbuch

Pipelinecode ausführen

Sie haben vier Optionen zum Ausführen des Pipelinecodes:

  1. Ausführen aller Quellcodedateien in der Pipeline

    Klicken Sie auf "Pipeline ausführen" oder " Pipeline ausführen" mit vollständiger Tabellenaktualisierung , um alle Tabellendefinitionen in allen Dateien auszuführen, die als Pipelinequellcode definiert sind. Ausführliche Informationen zu Aktualisierungstypen finden Sie unter Pipelineaktualisierungssemantik.

    Pipeline ausführen

    Sie können auch auf "Trockenlauf" klicken, um die Pipeline zu überprüfen, ohne Daten zu aktualisieren.

  2. Ausführen des Codes in einer einzelnen Datei

    Klicken Sie auf "Datei ausführen" oder " Datei ausführen" mit vollständiger Tabellenaktualisierung , um alle Tabellendefinitionen in der aktuellen Datei auszuführen. Andere Dateien in der Pipeline werden nicht ausgewertet.

    Datei ausführen

    Diese Option ist nützlich für das Debuggen beim schnellen Bearbeiten und Durchlaufen einer Datei. Es gibt Nebenwirkungen, wenn nur der Code in einer einzelnen Datei ausgeführt wird.

    • Wenn andere Dateien nicht ausgewertet werden, werden Fehler in diesen Dateien nicht gefunden.
    • Tabellen, die in anderen Dateien materialisiert wurden, verwenden die neueste Materialisierung der Tabelle, auch wenn neuere Quelldaten vorhanden sind.
    • Wenn eine referenzierte Tabelle noch nicht materialisiert wurde, können Fehler auftreten.
    • Das Pipelinediagramm ist möglicherweise falsch oder nicht zusammenhängend für Tabellen in anderen Dateien, die nicht materialisiert wurden. Azure Databricks gibt sein Bestes, um den Graphen korrekt zu halten, wertet jedoch keine anderen Dateien aus, um dies zu tun.

    Wenn Sie mit dem Debuggen und Bearbeiten einer Datei fertig sind, empfiehlt Databricks, alle Quellcodedateien in der Pipeline auszuführen, um sicherzustellen, dass die Pipeline end-to-End funktioniert, bevor die Pipeline in die Produktion versetzt wird.

  3. Ausführen des Codes für eine einzelne Tabelle

    Klicken Sie neben der Definition einer Tabelle in der Quellcodedatei auf das Symbol "" und wählen Sie dann in der Dropdownliste entweder Run Table Icon"Tabelle aktualisieren" oder "Vollständige Tabelle aktualisieren" aus. Das Ausführen des Codes für eine einzelne Tabelle hat ähnliche Nebeneffekte wie das Ausführen des Codes in einer einzelnen Datei.

    Tabelle ausführen

    Hinweis

    Das Ausführen des Codes für eine einzelne Tabelle ist für Streamingtabellen und materialisierte Ansichten verfügbar. Senken und Ansichten werden nicht unterstützt.

  4. Ausführen des Codes für eine Gruppe von Tabellen

    Sie können Tabellen aus dem Pipelinediagramm auswählen, um eine Liste der auszuführenden Tabellen zu erstellen. Zeigen Sie mit der Maus auf die Tabelle im Pipelinediagramm, klicken Sie auf das Kebab-Menüsymbol, und wählen Sie "Tabelle auswählen" für die Aktualisierung aus. Nachdem Sie die zu aktualisierenden Tabellen ausgewählt haben, wählen Sie entweder die Option "Ausführen" oder " Ausführen" mit vollständiger Aktualisierungsoption unten im Pipelinediagramm aus.

    Ausgewählte Tabellen ausführen

  5. Ausführen von ausgewähltem Code

    Markieren Sie SQL-Code, und klicken Sie auf "Ausgewählten Code ausführen ", um die Ausgaben schnell zu prüfen, ohne die Daten zu materialisieren. Ausgaben werden auf der Registerkarte "Abfrageergebnisse " im unteren Bereich angezeigt.

Pipeline-Diagramm

Nachdem Sie alle Quellcodedateien in der Pipeline ausgeführt oder überprüft haben, wird das Pipelinediagramm angezeigt, auch als weitergeleitetes azyklisches Diagramm (DAG) bezeichnet. Das Diagramm zeigt das Tabellenabhängigkeitsdiagramm. Jeder Knoten weist verschiedene Phasen entlang des Pipelinelebenszyklus auf, z. B. validiert, laufend oder fehlerhaft.

Das Pipelinediagramm mit Tabellenabhängigkeiten und Lebenszykluszuständen im Lakeflow Pipelines Editor.

  1. Pipelinediagramm: Öffnen Sie das Diagramm, indem Sie im unteren Bereich auf die Registerkarte " Pipelinediagramm " klicken.
  2. Knoten: Zeigen Sie die Abhängigkeiten der Tabellen an, die Teil Ihrer Pipeline sind, sowie alle Metriken, die sie betreffen. Knoten, die Teil der aktuell geöffneten Dateien sind, werden im Pipelinediagramm hervorgehoben. Wenn Sie mit dem Mauszeiger auf einen Knoten zeigen, wird eine Symbolleiste mit Optionen angezeigt, einschließlich Aktualisieren der Abfrage. Wenn Sie mit der rechten Maustaste auf einen Knoten klicken, erhalten Sie die gleichen Optionen in einem Kontextmenü. Wenn Sie auf einen Knoten klicken, werden die Datenvorschau und die Tabellendefinition angezeigt. Wenn Sie eine Datei bearbeiten, werden die in dieser Datei definierten Tabellen im Diagramm hervorgehoben.
  3. In Registerkarte öffnen: Um das Diagramm zu maximieren, wählen Sie oben rechts im unteren Bereich das Symbol aus, um es auf einer separaten Registerkarte zu öffnen.
  4. Weitere Optionen: Weitere Optionen befinden sich unten rechts, einschließlich Zoomoptionen und weitere Optionen zum Anzeigen des Diagramms in einem vertikalen oder horizontalen Layout.

Datenvorschauen

Im Abschnitt "Datenvorschau" werden Beispieldaten für eine ausgewählte Tabelle angezeigt.

Wenn Sie auf einen Knoten im Pipelinediagramm klicken, wird eine Vorschau der Tabellendaten angezeigt. Wenn Sie direkt im unteren Bereich zur Datenvorschau einer anderen Tabelle navigieren möchten, wählen Sie "Zurück" aus , oder klicken Sie auf einen anderen Knoten, wenn das Pipelinediagramm auf einer separaten Registerkarte geöffnet ist.

Alternativ, gehen Sie zum Bereich Tabellen und klicken Sie auf Datenvorschau anzeigenLDP-Symbol für Datenvorschau anzeigen. Wenn Sie eine Tabelle ausgewählt haben, klicken Sie auf "Alle Tabellen ", um zu allen Tabellen zurückzukehren.

Wenn Sie eine Vorschau der Tabellendaten anzeigen, können Sie die Daten direkt filtern oder sortieren. Wenn Sie komplexere Analysen durchführen möchten, können Sie ein Notizbuch im Ordner " Explorations" verwenden oder erstellen (vorausgesetzt, Sie haben die Standardordnerstruktur beibehalten). Der Quellcode in diesem Ordner wird standardmäßig nicht während eines Pipelineupdates ausgeführt, sodass Sie Abfragen erstellen können, ohne die Pipelineausgabe zu beeinträchtigen.

Ausführungserkenntnisse

Sie können die Tabellen-Ausführungs-Insights über das neueste Pipeline-Update in den Panels am unteren Rand des Editors sehen.

Panel Description
Tabellen Listet alle Tabellen mit ihren Status und Metriken auf. Wenn Sie eine Tabelle auswählen, werden die Metriken und die Leistung für diese Tabelle und eine Registerkarte für die Datenvorschau angezeigt.
Leistung Abfrageverlauf und Profile für alle Flüsse in dieser Pipeline. Sie können während und nach der Ausführung auf Ausführungsmetriken und detaillierte Abfragepläne zugreifen. Weitere Informationen finden Sie im Access-Abfrageverlauf für Pipelines .
Problemübersicht Klicken Sie auf das Panel, um eine vereinfachte Ansicht von Fehlern, Warnungen und Erkenntnissen für die Pipeline anzuzeigen. Klicken Sie auf einen Eintrag, um weitere Details anzuzeigen, und navigieren Sie dann zu der Stelle im Code, an der der Fehler aufgetreten ist. Wenn sich der Fehler in einer anderen Datei als der aktuell angezeigten befindet, leitet sie sie an die Datei weiter, in der sich der Fehler befindet.
Klicken Sie auf "Details anzeigen ", um den entsprechenden Ereignisprotokolleintrag für vollständige Details anzuzeigen. Klicken Sie auf "Protokolle anzeigen ", um das vollständige Ereignisprotokoll anzuzeigen.
Klicken Sie auf " Fehler diagnostizieren ", um das Problem mit dem Sparkle Genie-Codesymbol zu debuggen. Genie Code.
Codebezogene Fehlerindikatoren werden für Fehler angezeigt, die einem bestimmten Teil des Codes zugeordnet sind. Um weitere Details zu erhalten, klicken Sie auf das Fehlersymbol , oder zeigen Sie auf die rote Linie. Ein Popup mit weiteren Informationen wird angezeigt. Sie können dann auf "Schnellkorrektur" klicken, um eine Reihe von Aktionen zur Problembehandlung anzuzeigen.
Ereignisprotokoll Alle Ereignisse, die während der letzten Pipelineausführung ausgelöst wurden. Klicken Sie auf "Protokolle anzeigen" oder auf einen beliebigen Eintrag in der Taskleiste "Probleme".

Pipelinekonfiguration

Sie können Ihre Pipeline über den Pipeline-Editor konfigurieren. Sie können Änderungen an den Pipelineeinstellungen, dem Zeitplan oder den Berechtigungen vornehmen.

Auf jede dieser Elemente kann über eine Schaltfläche in der Kopfzeile des Editors oder über Symbole im Objektbrowser (die linke Randleiste) zugegriffen werden.

  • Einstellungen (oder wählen Sie das Zahnradsymbol im Asset-Browser):

    Sie können Einstellungen für die Pipeline über den Einstellungsbereich bearbeiten, einschließlich allgemeiner Informationen, Stammordner- und Quellcodekonfiguration, Berechnungskonfiguration, Benachrichtigungen, erweiterten Einstellungen und mehr.

  • Zeitplan (oder wählen Sie das Kalenderuhrsymbol aus. im Objektbrowser):

    Sie können einen oder mehrere Zeitpläne für Ihre Pipeline über das Dialogfeld "Zeitplan" erstellen. Wenn Sie es beispielsweise täglich ausführen möchten, können Sie dies hier festlegen. Er erstellt einen Auftrag, um die Pipeline für den von Ihnen ausgewählten Zeitplan auszuführen. Sie können einen neuen Zeitplan hinzufügen oder einen vorhandenen Zeitplan aus dem Zeitplandialogfeld entfernen.

  • Freigeben (oder, aus dem Kebab-Menüsymbol. Menü im Objektbrowser, wählen Sie das Symbol ):

    Sie können Berechtigungen für die Pipeline für Benutzer und Gruppen über das Dialogfeld "Pipelineberechtigungen" verwalten.

Ereignisprotokoll

Sie können das Ereignisprotokoll für eine Pipeline im Unity-Katalog veröffentlichen. Standardmäßig wird das Ereignisprotokoll für Ihre Pipeline in der Benutzeroberfläche angezeigt und kann vom Besitzer für abfragen verwendet werden.

  1. Öffnen Sie "Einstellungen".
  2. Klicken Sie auf den Pfeil mit dem Chevron-rechts-Symbol neben den Erweiterten Einstellungen.
  3. Klicken Sie auf "Erweiterte Einstellungen bearbeiten".
  4. Klicken Sie unter "Ereignisprotokolle" auf " Im Katalog veröffentlichen".
  5. Geben Sie einen Namen, einen Katalog und ein Schema für das Ereignisprotokoll an.
  6. Klicken Sie auf "Speichern".

Ihre Pipelineereignisse werden in der angegebenen Tabelle veröffentlicht.

Weitere Informationen zur Verwendung des Pipelineereignisprotokolls finden Sie unter Abfragen des Ereignisprotokolls.

Pipelineumgebung

Sie können eine Umgebung für Den Quellcode erstellen, indem Sie Abhängigkeiten in den Einstellungen hinzufügen.

  1. Öffnen Sie "Einstellungen".
  2. Klicken Sie unter "Pipelineumgebung" auf "Umgebung bearbeiten".
  3. Klicken Sie auf " Abhängigkeit hinzufügen ", um eine Abhängigkeit hinzuzufügen, als ob Sie sie einer requirements.txt Datei hinzufügen würden. Weitere Informationen zu Abhängigkeiten finden Sie unter Hinzufügen von Abhängigkeiten zum Notizbuch.

Databricks empfiehlt, dass Sie die Version mit „==“ anheften. Weitere Informationen finden Sie unter PyPI-Paket.

Die Umgebung gilt für alle Quellcodedateien in Ihrer Pipeline.

Benachrichtigungen

Sie können Benachrichtigungen mithilfe der Pipelineeinstellungen hinzufügen.

  1. Öffnen Sie "Einstellungen".
  2. Klicken Sie im Abschnitt "Benachrichtigungen" auf "Benachrichtigung hinzufügen".
  3. Fügen Sie eine oder mehrere E-Mail-Adressen und die Ereignisse hinzu, die gesendet werden sollen.
  4. Klicken Sie auf Benachrichtigung hinzufügen.

Hinweis

Erstellen Sie benutzerdefinierte Antworten auf Ereignisse, einschließlich Benachrichtigungen oder benutzerdefinierter Behandlung, mithilfe von Python-Ereignishaken.

Überwachen von Pipelines

Azure Databricks bietet außerdem Überwachungsfunktionen für laufende Pipelines. Der Editor zeigt die Ergebnisse und Ausführungserkenntnisse zur letzten Ausführung an. Es ist optimiert, um Ihnen zu helfen, bei der interaktiven Entwicklung der Pipeline effizient zu iterieren.

Auf der Pipelineüberwachungsseite können Sie historische Läufe anzeigen, was nützlich ist, wenn eine Pipeline planmäßig mit einem Job ausgeführt wird.

Hinweis

Es gibt eine Standardüberwachungsumgebung und eine aktualisierte Vorschauüberwachungsumgebung. Im folgenden Abschnitt wird beschrieben, wie Sie die Vorschauüberwachung aktivieren oder deaktivieren. Informationen zu beiden Erlebnissen finden Sie unter Überwachung von Pipelines in der Benutzeroberfläche.

Die Überwachungserfahrung ist über die Schaltfläche "Aufträge & Pipelines" auf der linken Seite Ihres Arbeitsbereichs verfügbar. Sie können auch direkt zur Überwachungsseite aus dem Editor springen, indem Sie im Pipelineobjektbrowser auf die Ausführungsergebnisse klicken.

Link zur Überwachungsseite aus dem Editor

Weitere Informationen zur Überwachungsseite finden Sie unter Überwachen von Pipelines in der Benutzeroberfläche. Die Überwachungsbenutzeroberfläche enthält die Möglichkeit, zum Lakeflow-Pipelines-Editor zurückzukehren, indem Sie " Pipeline bearbeiten" aus der Kopfzeile der Benutzeroberfläche auswählen.

Dateningenieur-Agent

Von Bedeutung

Dieses Feature befindet sich in der Public Preview.

Der Lakeflow Pipelines Editor ist in den Genie Code Data Engineering Agent integriert, der ganze Lakeflow Spark Declarative Pipelines direkt aus natürlicher Sprache generieren, ändern und debuggen kann. Weitere Informationen finden Sie unter Verwenden von Genie Code für die Pipelineentwicklung.

Einschränkungen und bekannte Probleme

Sehen Sie sich die folgenden Einschränkungen und bekannten Probleme für den ETL-Pipeline-Editor in Lakeflow Spark Declarative Pipelines an:

  1. Die Arbeitsbereichsbrowser-Randleiste konzentriert sich nicht auf die Pipeline, wenn Sie beginnen, eine Datei im explorations Ordner oder einem Notizbuch zu öffnen, da diese Dateien oder Notizbücher nicht Teil der Pipelinequellcodedefinition sind.

    Um den Pipelinefokusmodus im Arbeitsbereichsbrowser einzugeben, öffnen Sie eine Datei, die der Pipeline zugeordnet ist.

  2. Datenvorschauen werden für normale Ansichten nicht unterstützt.

  3. Python-Module werden in einer UDF nicht gefunden, auch wenn sie sich in Ihrem Stammordner befinden oder sich auf Ihrem sys.pathOrdner befinden. Sie können auf diese Module zugreifen, indem Sie innerhalb des UDF den Pfad an sys.path anhängen, siehe Beispiel: sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))

  4. %pip install wird von Dateien nicht unterstützt (der Standardobjekttyp mit dem neuen Editor). Sie können Abhängigkeiten in den Einstellungen hinzufügen. Siehe Pipelineumgebung.

    Alternativ können Sie weiterhin %pip install aus einem Notizbuch, das einer Pipeline zugeordnet ist, in seiner Quellcode-Definition verwenden.

Häufig gestellte Fragen

  1. Warum dateien und nicht Notizbücher für Quellcode verwenden?

    Die zellbasierte Ausführung von Notizbüchern ist nicht mit Pipelines kompatibel. Standardfunktionen von Notebooks werden beim Arbeiten mit Pipelines entweder deaktiviert oder geändert, was bei Benutzern, die das Notizbuchverhalten kennen, für Verwirrung sorgt.

    Im Lakeflow Pipelines Editor wird der Datei-Editor als Grundlage für einen erstklassigen Editor für Pipelines verwendet. Funktionen sind gezielt für Pipelines entwickelt, z. B. die Run-TabelleRun Table Icon, anstatt vertraute Funktionen mit unterschiedlichen Verhaltensweisen zu überladen.

  2. Kann ich Notizbücher weiterhin als Quellcode verwenden?

    Ja, das können Sie. Einige Funktionen, wie Tabelle ausführenRun Table Icon oder Datei ausführen, sind jedoch nicht vorhanden.

    Wenn Sie über eine vorhandene Pipeline mit Notizbüchern verfügen, funktioniert sie weiterhin im neuen Editor. Azure Databricks empfiehlt jedoch, für neue Pipelines zu Dateien zu wechseln.

  3. Wie kann ich vorhandenen Code zu einer neu erstellten Pipeline hinzufügen?

    Sie können einer neuen Pipeline vorhandene Quellcodedateien hinzufügen. Führen Sie die folgenden Schritte aus, um einen Ordner mit vorhandenen Dateien hinzuzufügen:

    1. Klicken Sie auf Einstellungen.
    2. Klicken Sie unter "Quellcode" auf "Pfade konfigurieren".
    3. Klicken Sie auf "Pfad hinzufügen" , und wählen Sie den Ordner für die vorhandenen Dateien aus.
    4. Klicken Sie auf "Speichern".

    Sie können auch einzelne Dateien hinzufügen:

    1. Klicken Sie im Pipelineobjektbrowser auf "Alle Dateien ".
    2. Navigieren Sie zu Ihrer Datei, klicken Sie auf das Kebab-Menüsymbol, und klicken Sie auf "In Pipeline einschließen".

    Überlegen Sie, diese Dateien in das Stammverzeichnis der Pipeline zu verschieben. Wenn sie außerhalb des Pipelinestammordners verbleiben, werden sie im Abschnitt "Externe Dateien " angezeigt.

  4. Kann ich den Pipeline-Quellcode in Git verwalten?

    Sie können Ihre Pipelinequelle in Git verwalten, indem Sie einen Git-Ordner auswählen, wenn Sie die Pipeline anfangs erstellen.

    Hinweis

    Durch die Verwaltung Ihrer Quelle in einem Git-Ordner wird die Versionsverwaltung für Den Quellcode hinzugefügt. Um ihre Konfiguration jedoch zu steuern, empfiehlt Databricks die Verwendung von deklarativen Automatisierungspaketen, um die Pipelinekonfiguration in Bundlekonfigurationsdateien zu definieren, die in Git (oder einem anderen Versionskontrollessystem) gespeichert werden können. Weitere Informationen finden Sie unter Was sind deklarative Automatisierungs-Bundles?.

    Wenn Sie die Pipeline anfänglich nicht in einem Git-Ordner erstellt haben, können Sie Ihre Quelle in einen Git-Ordner verschieben. Databricks empfiehlt die Verwendung der Editoraktion, um den gesamten Stammordner in einen Git-Ordner zu verschieben. Dadurch werden alle Einstellungen entsprechend aktualisiert. Siehe Stammordner.

    So verschieben Sie den Stammordner in einen Git-Ordner im Pipelineobjektbrowser:

    1. Klicken Sie auf das Kebab-Menüsymbol. Für den Stammordner.
    2. Klicken Sie auf Stammordner verschieben.
    3. Wählen Sie einen neuen Speicherort für Ihren Stammordner aus, und klicken Sie auf "Verschieben".

    Siehe den Stammordner-Abschnitt für weitere Informationen.

    Nach der Verschiebung wird das vertraute Git-Symbol neben dem Namen Ihres Stammordners angezeigt.

    Von Bedeutung

    Um den Pipelinestammordner zu verschieben, verwenden Sie den Pipelineobjektbrowser und die obigen Schritte. Wenn Sie sie auf andere Weise verschieben, werden die Pipelinekonfigurationen unterbrochen, und Sie müssen den richtigen Ordnerpfad in den Einstellungen manuell konfigurieren.

  5. Kann ich mehrere Pipelines im selben Stammordner haben?

    Sie können, aber Databricks empfiehlt, nur eine einzelne Pipeline pro Stammordner zu haben.

  6. Wann sollte ich einen Trockenlauf ausführen?

    Klicken Sie auf "Trockenlauf" , um den Code zu überprüfen, ohne die Tabellen zu aktualisieren.

  7. Wann sollte ich temporäre Ansichten verwenden und wann sollte ich materialisierte Ansichten in meinem Code verwenden?

    Verwenden Sie temporäre Ansichten, wenn Sie die Daten nicht materialisieren möchten. Zum Beispiel ist dies ein Schritt in einer Sequenz von Schritten, um die Daten vorzubereiten, bevor sie mithilfe einer Streaming-Tabelle oder einer materialisierten Ansicht, die im Katalog registriert ist, materialisiert werden können.