Utveckla och felsöka ETL-pipelines med Lakeflow Pipelines-redigeraren

Du utvecklar och felsöker ETL-pipelines i Lakeflow Spark Declarative Pipelines (SDP) (extrahera, transformera och ladda) i Lakeflow Pipelines Editor, en IDE som är byggd för pipelineutveckling.

Vad är Lakeflow Pipelines-redigeraren?

Lakeflow Pipelines Editor är en IDE som skapats för utveckling av pipelines. Den kombinerar alla pipelineutvecklingsuppgifter på en enda yta med stöd för kod-första arbetsflöden, mappbaserad kodorganisation, selektiv körning, dataförhandsgranskningar och pipelinediagram. Den är integrerad med Azure Databricks-plattformen och möjliggör även versionskontroll, kodgranskningar och schemalagda körningar.

Översikt över användargränssnittet för Lakeflow Pipelines-redigeraren

Följande bild visar Lakeflow Pipelines-redigeraren:

Lakeflow Pipelines-redigeraren

Bilden visar följande funktioner:

  1. Pipeline-ressursbläddrare: Skapa, ta bort, byt namn på och organisera pipeline-resurser. Innehåller även genvägar till pipelinekonfiguration.
  2. Kodredigerare med flera filer med flikar: Arbeta med flera kodfiler som är associerade med en pipeline.
  3. Pipelinespecifikt verktygsfält: Innehåller konfigurationsalternativ för pipeline och körningsåtgärder på pipelinenivå.
  4. Interaktiv pipelinegraf: Få en översikt över dina tabeller, öppna det nedre fältet för dataförhandsgranskning och utför andra tabellrelaterade åtgärder.
  5. Insikter om körning på tabellnivå: Hämta körningsinsikter för alla tabeller eller en enda tabell i en pipeline. Insikterna syftar på den senaste pipelinekörningen.
  6. Problempanel: Den här funktionen sammanfattar fel, varningar och insikter för alla filer i pipelinen och du kan navigera till platsen där felet inträffade i en specifik fil. Den kompletterar felindikatorer som har kodats.
  7. Selektiv körning: Kodredigeraren har funktioner för stegvis utveckling, till exempel möjligheten att endast uppdatera tabellerna i den aktuella filen med hjälp av åtgärden Kör fil eller uppdatera en enda tabell.
  8. Ikon för glittrande Genie Code. Genie Code: Skapa, uppdatera och felsök dina pipelines med Genie Code, en agentbaserad upplevelse som automatiserar arbetsflöden i flera steg, från dataupptäckt och kodgenerering till att köra pipelines och åtgärda datakvalitetsproblem.

Andra viktiga funktioner:

Skapa en ny ETL-pipeline

Följ dessa steg för att skapa en ny ETL-pipeline med Lakeflow Pipelines-redigeraren:

  1. Längst upp i sidofältet klickar du på plusikonen.Ny och välj sedan Pipeline-ikonen.ETL-pipeline.

    En pipeline skapas automatiskt med följande standardinställningar:

    Du kan justera de här inställningarna från pipelinens verktygsfält.

  2. Ge din pipeline ett unikt namn högst upp.

  3. Bredvid namnet visas den standardkatalog och det schema som valts för dig.

    Standardkatalogen och standardschemat är därifrån dataset läses eller skrivs när du inte anger en katalog eller ett schema i din kod. Mer information finns i Databasobjekt i Azure Databricks .

    Klicka på katalogen och schemat för att ändra standardinställningarna för din pipeline.

  4. Pipelinen har som standard en tom my_transformation fil. Växla den här filen mellan Python och SQL genom att välja från listrutan språk. Skriv kod i den här filen direkt eller välj något av följande alternativ för att komma igång snabbt:

    • Ikon för glittrande Genie Code. Skapa med Genie Code: Beskriv din pipeline med naturligt språk och låt Genie Code bygga den åt dig.
    • Använd exempelkod: Skapa en standardmappstruktur och exempelkod på den aktuella filens språk.

    Ny my_transformation källfil med alternativ.

    Om du vill ha mer avancerade alternativ expanderar du menyikonen För Kebab. (till höger om kodikonen.Använd exempelkodknappen ) för att:

    • Lägg till befintlig källkod: Associera din pipeline med kodfiler som redan är tillgängliga på din arbetsyta, inklusive Git-mappar.
    • Konfigureras som källkontrollerad: Använd ett deklarativt Automation Bundles-projekt för källkontroll och CI/CD-stöd. Se Skapa en källkontrollerad pipeline.
    • Använd Hive-metaarkiv: Skapa en pipeline med äldre inställningar.

Du kan också skapa en ETL-pipeline från arbetsytans webbläsare:

  1. Klicka på Arbetsyta på den vänstra panelen.
  2. Välj valfri mapp, inklusive Git-mappar.
  3. Klicka på Skapa i det övre högra hörnet och klicka på ETL-pipeline.

Du kan också skapa en ETL-pipeline från sidan jobb och pipelines:

  1. På arbetsytan klickar du på Arbetsflöden-ikonen.Jobb och pipelines i sidofältet.
  2. Under Ny klickar du på ETL-pipeline.

Tips/Råd

Databricks CLI tillhandahåller kommandon för att skapa, ändra och hantera dina pipelines från en terminal. Se pipelines kommandogrupp.

Öppna en befintlig ETL-pipeline

Det finns flera sätt att öppna en befintlig ETL-pipeline i Lakeflow Pipelines-redigeraren:

  • Öppna alla källfiler som är associerade med pipelinen:

    1. Klicka på Arbetsyta på sidopanelen.
    2. Navigera till en mapp med källkodsfiler för din pipeline.
    3. Klicka på källkodsfilen för att öppna pipelinen i redigeraren.
  • Öppna en nyligen redigerad pipeline:

    • Från redigeraren kan du navigera till andra pipelines som du nyligen har redigerat genom att klicka på namnet på pipelinen överst i tillgångsläsaren och välja en annan pipeline från listan med senaste data som visas.
    • Utanför redigeraren öppnar du en pipeline eller en fil som konfigurerats som källkod för en pipeline från sidan Senaste på den vänstra sidopanelen.
  • När du visar en pipeline i produkten kan du välja att redigera pipelinen:

    • På sidan för pipelineövervakning klickar du på penna-ikonen.Redigera pipeline.
    • På sidan Jobs & Pipelines i det vänstra sidofältet klickar du på Pennikonen. för att redigera pipelinen.
    • När du redigerar ett jobb och lägger till en pipelineaktivitet kan du klicka på knappen Öppna i ny flikikon när du väljer en pipeline under Pipeline.
  • Om du bläddrar i Alla filer i tillgångswebbläsaren och öppnar en källkodsfil från en annan pipeline visas en banderoll överst i redigeraren, där du uppmanas att öppna den associerade pipelinen.

Pipeline-resurswebbläsare

När du redigerar en pipeline använder den vänstra sidopanelen på arbetsytan ett särskilt läge som kallas resursbläddraren för pipelines. Som standard fokuserar pipelinetillgångsläsaren på pipelineroten och mappar och filer i roten. Du kan också välja att visa Alla filer för att se filer utanför roten i pipelinen. Flikarna som öppnas i pipelineredigeraren när du redigerar en specifik pipeline sparas, och när du växlar till en annan pipeline öppnas flikarna senast du redigerade pipelinen.

Anmärkning

Redigeraren har också kontexter för redigering av SQL-filer (kallas Databricks SQL-redigeraren) och en allmän kontext för redigering av arbetsytefiler som inte är SQL-filer eller pipelinefiler. Var och en av dessa kontexter kommer ihåg och återställer flikarna som du hade öppnat förra gången du använde kontexten. Du kan växla kontext överst i det vänstra sidofältet. Klicka på rubriken för att välja mellan arbetsyta, SQL-redigerare eller pipelines som nyligen har redigerats.

Växla redigeringskontexter

När du öppnar en fil från arbetsytans webbläsarsida öppnas den i motsvarande redigerare för filen. Om filen är associerad med en pipeline är det Lakeflow Pipelines Editor.

Om du vill öppna en fil som inte är en del av pipelinen, men behålla pipelinekontexten, öppnar du filen från tillgångsläsarens fliken Alla filer .

Pipelinens tillgångswebbläsare har två flikar:

  • Pipeline: Här hittar du alla filer som är associerade med pipelinen. Du kan skapa, ta bort, byta namn på och ordna dem i mappar. Den här fliken innehåller även genvägar för pipelinekonfiguration och en grafisk vy över de senaste körningarna.
  • Alla filer: Alla andra arbetsytetillgångar är tillgängliga här. Detta kan vara användbart för att hitta filer som ska läggas till i pipelinen eller visa andra filer som är relaterade till pipelinen, till exempel en YAML-fil som definierar deklarativa Automation-paket.

Pipelinetillgångswebbläsare

Du kan ha följande typer av filer i pipelinen:

  • Källkodsfiler: Dessa filer är en del av pipelinens källkodsdefinition, som kan visas i Inställningar. Databricks rekommenderar att du alltid lagrar källkodsfiler i rotmappen för pipelinen. Annars visas de i ett externt filavsnitt längst ned i webbläsaren och har en mindre omfattande funktionsuppsättning.
  • Icke-källkodsfiler: Dessa filer lagras i rotmappen för pipelinen men ingår inte i pipelinens källkodsdefinition.

Viktigt!

Du måste använda pipelinens tillgångswebbläsare under fliken Pipeline för att hantera filer och mappar för din pipeline. Detta uppdaterar pipelineinställningarna korrekt. Om du flyttar eller byter namn på filer och mappar från arbetsytans webbläsare eller fliken Alla filer bryts pipelinekonfigurationen, och du måste sedan lösa detta manuellt i Inställningar.

Rotmapp

Pipelinens tillgångswebbläsare är förankrad i en pipelinerotmapp. När du skapar en ny pipeline skapas rotmappen för pipelinen i användarens hemmapp.

Du kan ändra rotmappen i pipeline-resursbläddraren. Detta är användbart om du skapade en pipeline i en mapp och senare vill flytta allt till en annan mapp. Du har till exempel skapat pipelinen i en vanlig mapp och vill flytta källkoden till en Git-mapp för versionskontroll.

  1. Klicka på menyikonen Kebab. spillmeny för rotmappen.
  2. Klicka på Konfigurera ny rotmapp.
  3. Under Rotmapp för pipeline klickar du på Mappikon och väljer en annan mapp som rotmapp för pipelinen.
  4. Klicka på Spara.

Ändra rotmapp för pipeline

I menyikonen Kebab. För rotmappen kan du också klicka på Byt namn på rotmappen för att byta namn på mappnamnet. Här kan du också klicka på Flytta rotmapp för att flytta rotmappen, till exempel till en Git-mapp.

Du kan också ändra rotmappen för pipelinen i inställningarna:

  1. Klicka på Inställningar.
  2. Under Kodtillgångar klickar du på Konfigurera sökvägar.
  3. Klicka på Mappikonen för att ändra mappen i Rotmappen för pipeline.
  4. Klicka på Spara.

Anmärkning

Om du ändrar pipeline-rotmappen påverkas fillistan som visas i pipeline-resursbläddraren, eftersom filerna i den tidigare rotmappen visas som externa filer.

Befintlig pipeline utan rotmapp

En befintlig pipeline som skapats med hjälp av den äldre notebook-redigeringsmiljön har inte någon rotmapp konfigurerad. När du öppnar en pipeline som inte har konfigurerat en rotmapp följer du dessa steg om du vill konfigurera rotmappen för pipelinen:

  1. I resurswebbläsaren för pipeline klickar du på Konfigurera.
  2. Klicka på Mappikon för att välja rotmappen vid Pipeline-rotmapp.
  3. Klicka på Spara.

Ingen rotmapp för pipelinen

Standardmappstruktur

När du skapar en ny pipeline skapas en standardmappstruktur. Det här är den rekommenderade strukturen för att organisera källkodsfilerna för din pipeline och andra filer, enligt beskrivningen nedan.

Ett litet antal exempelkodfiler skapas i den här mappstrukturen.

Mappnamn Rekommenderad plats för dessa typer av filer
<pipeline_root_folder> Rotmapp som innehåller alla mappar och filer för din pipeline.
transformations Källkodsfiler, till exempel Python- eller SQL-kodfiler med tabelldefinitioner.
explorations Icke-källkodsfiler, till exempel notebook-filer, frågor och kodfiler som används för undersökande dataanalys.
utilities Icke-källkodsfiler med Python-moduler som kan importeras från andra kodfiler. Om du väljer SQL som språk för exempelkod skapas inte den här mappen.

Du kan byta namn på mappnamnen eller ändra strukturen så att den passar ditt arbetsflöde. Följ dessa steg för att lägga till en ny källkodsmapp:

  1. Klicka på Lägg till i pipelinens tillgångswebbläsare.
  2. Klicka på Skapa källkodsmapp för pipeline.
  3. Ange ett mappnamn och klicka på Skapa.

Källkodsfiler

Källkodsfiler är en del av pipelinens källkodsdefinition. När du kör pipelinen utvärderas dessa filer. Filer och mappar som ingår i källkodsdefinitionen har en särskild ikon med en minipipelineikon ovanpå.

Så här lägger du till en ny källkodsfil:

  1. Klicka på Plus-ikonen. bredvid rotmappen.
  2. Klicka på Transformation.
  3. Ange ett namn för filen och välj Python eller SQL som språk.
  4. Klicka på Skapa.

Använd inlinehjälpmedlen för att börja skriva kod med ikonen Sparkle Genie Code. Genie Code eller generera korta kodfragment för önskad datamängdstyp (till exempel materialiserad vy eller strömmande tabell).

En transformations mapp för källkod skapas som standard när du skapar en ny pipeline. Den här mappen är den rekommenderade platsen för pipelinens källkod, till exempel Python- eller SQL-kodfiler med pipelinetabelldefinitioner.

Filer som inte är källkodsfiler

Icke-källkodsfiler lagras i rotmappen för pipelinen men ingår inte i pipelinens källkodsdefinition. Dessa filer utvärderas inte när du kör pipelinen. Icke-källkodsfiler får inte vara externa filer.

Du kan använda detta för filer som är relaterade till ditt arbete på pipelinen som du vill lagra tillsammans med källkoden. Till exempel:

  • Notebook-anteckningsböcker som du använder för ad hoc-utforskningar som körs på deklarativa Spark-pipelines som inte använder Lakeflow utanför livscykeln för en pipeline.
  • Python-moduler som inte ska utvärderas med källkoden om du inte uttryckligen importerar dessa moduler i källkodsfilerna.

Så här lägger du till en ny icke-källkodsfil:

  1. Klicka på Plus-ikonen. bredvid rotmappen.
  2. Klicka på Utforskning eller verktyg.
  3. Ange ett namn för filen.
  4. Klicka på Skapa.

När du skapar en ny pipeline skapas följande mappar för icke-källkodsfiler som standard:

Mappnamn Description
explorations Den här mappen är den rekommenderade platsen för notebooks, frågor, instrumentpaneler och andra filer, och kör dem sedan på Spark-deklarativa pipelines som inte är relaterade till Lakeflow, precis som du normalt skulle göra utanför en pipeliness exekveringslivscykel.
utilities Den här mappen är den rekommenderade platsen för Python-moduler som kan importeras från andra filer via direktimport uttryckt som from <filename> import, så länge deras överordnade mapp är hierarkiskt under rotmappen.

Du kan också importera Python-moduler utanför rotmappen, men i så fall måste du lägga till mappsökvägen sys.path i din Python-kod.

import sys, os
sys.path.append(os.path.abspath('<alternate_path_for_utilities>/utilities'))
from utils import \*

Externa filer

Avsnittet Externa filer i pipelinewebbläsaren visar källkodsfiler utanför rotmappen.

Följ dessa steg om du vill flytta en extern fil till rotmappen transformations , till exempel mappen:

  1. Klicka på Kebabmenyikonen för filen i resurshanteraren och klicka på Flytta.
  2. Välj den mapp som du vill flytta filen till och klicka på Flytta.

Filer som är associerade med flera pipelines

Ett märke visas i filens huvud om en fil är associerad med mer än en pipeline. Den har ett antal associerade pipelines och tillåter att växla mellan dem.

Avsnittet Alla filer

Förutom avsnittet Pipeline finns det avsnittet Alla filer , där du kan öppna valfri fil på din arbetsyta. Här kan du

  • Öppna filer utanför rotmappen på en flik utan att lämna Lakeflow Pipelines-redigeraren.
  • Navigera till en annan pipelines källkodsfiler och öppna dem. Då öppnas filen i redigeraren och du får en banderoll med alternativet att växla fokus i redigeraren till den andra pipelinen.
  • Flytta filer till pipelinens rotmapp.
  • Inkludera filer utanför rotmappen i pipelinens källkodsdefinition.

Redigera pipeline-källfiler

När du öppnar en pipelinekällfil från arbetsytans webbläsare eller pipelinetillgångsläsaren öppnas den på en redigeringsflik i Lakeflow Pipelines-redigeraren. Om du öppnar fler filer öppnas separata flikar så att du kan redigera flera filer samtidigt.

Anmärkning

Om du öppnar en fil som inte är associerad med en pipeline från arbetsytans webbläsare öppnas redigeraren i en annan kontext (antingen den allmänna arbetsyteredigeraren eller SQL-redigeraren för SQL-filer).

När du öppnar en fil som inte är en pipeline från fliken Alla filer i pipelinetillgångens webbläsare öppnas den på en ny flik i pipelinekontexten.

Pipeline-källkoden innehåller flera filer. Som standard finns källfilerna i mappen transformationer i pipelinetillgångens webbläsare. Källkodsfiler kan vara Python-filer (*.py) eller SQL-filer (*.sql). Källan kan innehålla en blandning av både Python- och SQL-filer i en enda pipeline, och koden i en fil kan referera till en tabell eller vy som definierats i en annan fil.

Du kan också inkludera markdown-filer (*.md) i mappen tranformations . Markdown-filer kan användas för dokumentation eller anteckningar, men ignoreras när du kör en pipelineuppdatering.

Följande funktioner är specifika för Lakeflow Pipelines-redigeraren:

Redigera pipelinekod

  1. Anslut: Anslut till antingen serverlös eller klassisk beräkning för att köra pipelinen. Alla filer som är associerade med pipelinen använder samma beräkningsanslutning, så när du har anslutit behöver du inte ansluta för andra filer i samma pipeline. Mer information om beräkningsalternativ finns i Konfigurationsalternativ för beräkning.

    För filer som inte är pipelinefiler, till exempel en undersökande notebook-fil, är anslutningsalternativet tillgängligt, men gäller endast för den enskilda filen.

  2. Kör fil: Kör koden för att uppdatera tabellerna som definierats i den här källfilen. I nästa avsnitt beskrivs olika sätt att köra din pipelinekod.

  3. Redigera: Använd kodikonen Sparkle genie. Genie Code för att redigera eller lägga till kod i filen.

  4. Snabbkorrigering: Använd ikonen Sparkle genie code. Genie Code för att åtgärda fel eller agera utifrån insikter i din kod.

Den nedre panelen justeras också, baserat på den aktuella fliken. Det är alltid tillgängligt att visa pipelineinformation i den nedre panelen. Icke-pipeline-associerade filer, till exempel SQL-redigerarfiler, visar också sina utdata i den nedre panelen på en separat flik. Följande bild visar en lodrät flikväljare för att växla den nedre panelen mellan att visa pipelineinformation eller information för den valda notebook-filen.

Vertikal flikväljare för utforskande anteckningsbok

Kör pipelinekod

Du har fyra alternativ för att köra pipelinekoden:

  1. Kör alla källkodsfiler i pipelinen

    Klicka på Kör pipeline eller Kör pipeline med fullständig tabelluppdatering för att köra alla tabelldefinitioner i alla filer som definierats som pipelinekällkod. Mer information om uppdateringstyper finns i pipelineuppdateringssemantik.

    Kör pipeline

    Du kan också klicka på Torr körning för att verifiera pipelinen utan att uppdatera några data.

  2. Kör koden i en enda fil

    Klicka på Kör fil eller Kör fil med fullständig tabelluppdatering för att köra alla tabelldefinitioner i den aktuella filen. Andra filer i pipelinen utvärderas inte.

    Kör fil

    Det här alternativet är användbart för felsökning när du snabbt redigerar och itererar en fil. Det finns biverkningar när du bara kör koden i en enda fil.

    • När andra filer inte utvärderas hittas inte fel i dessa filer.
    • Tabeller som materialiserats i andra filer använder den senaste materialiseringen av tabellen, även om det finns nyare källdata.
    • Du kan stöta på fel om en refererad tabell ännu inte har materialiserats.
    • Pipelinediagrammet kan vara felaktigt eller osammanhängande för tabeller i andra filer som inte har materialiserats. Azure Databricks gör sitt bästa för att hålla grafen korrekt, men utvärderar inte andra filer för att göra det.

    När du är klar med felsökningen och redigeringen av en fil rekommenderar Databricks att du kör alla källkodsfiler i pipelinen för att kontrollera att pipelinen fungerar från slutpunkt till slutpunkt innan pipelinen placeras i produktion.

  3. Kör koden för en enskild tabell

    Bredvid definitionen av en tabell i källkodsfilen klickar du på ikonen Kör tabellikonkör tabell och väljer sedan antingen Uppdatera tabell eller Fullständig uppdateringstabell i listrutan. Att köra koden för en enskild tabell har liknande sidoeffekter som att köra koden i en enda fil.

    Kör tabell

    Anmärkning

    Att köra koden för en enskild tabell är tillgängligt för strömmande tabeller och materialiserade vyer. Mottagare och vyer stöds inte.

  4. Kör koden för en uppsättning tabeller

    Du kan välja tabeller i pipelinediagrammet för att skapa en lista över tabeller som ska köras. Hovra över tabellen i pipelinediagrammet, klicka på menyikonen Kebab., och välj Välj tabell för uppdatering. När du har valt de tabeller som ska uppdateras väljer du antingen alternativet Kör eller Kör med fullständig uppdatering längst ned i pipelinediagrammet.

    Kör markerade tabeller

  5. Kör vald kod

    Markera SQL-kod och klicka på Kör vald kod för att snabbt inspektera utdata utan att materialisera data. Utdata visas på fliken Frågeresultat på den nedre panelen.

Pipelinediagram

När du har kört eller verifierat alla källkodsfiler i pipelinen visas pipelinediagrammet, även kallat det riktade acykliska diagrammet (DAG). Diagrammet visar tabellens beroendediagram. Varje nod har olika tillstånd längs pipelinens livscykel, till exempel verifierad, körs eller fel.

Pipelinediagrammet som visar tabellberoenden och livscykeltillstånd i Lakeflow Pipelines-redigeraren.

  1. Pipelinediagram: Öppna diagrammet genom att klicka på fliken Pipelinediagram i den nedre panelen.
  2. Noder: Visa beroenden för tabellerna som ingår i din pipeline samt eventuella mått som hör till dem. Noder som ingår i de öppna filerna är markerade i pipelinediagrammet. När du hovrar över en nod visas ett verktygsfält med alternativ, inklusive uppdatera frågan. Om du högerklickar på en nod får du samma alternativ i en snabbmeny. När du klickar på en nod visas dataförhandsgranskningen och tabelldefinitionen. När du redigerar en fil markeras de tabeller som definierats i filen i diagrammet.
  3. Öppna på fliken: Om du vill maximera diagrammet väljer du ikonen längst upp till höger på den nedre panelen för att öppna den på en separat flik.
  4. Fler alternativ: Ytterligare alternativ finns längst ned till höger, inklusive zoomalternativ och Fler alternativ för att visa diagrammet i en lodrät eller vågrät layout.

Dataförhandsgranskningar

Avsnittet dataförhandsgranskning visar exempeldata för en vald tabell.

Du ser en förhandsgranskning av tabellens data när du klickar på en nod i pipelinediagrammet. Om du vill navigera till dataförhandsgranskningen av en annan tabell direkt i den nedre panelen väljer du Tillbaka till grafen eller klickar på en annan nod om du har pipelinediagrammet öppet på en separat flik.

Du kan också gå till avsnittet Tabeller och klicka på Visa dataförhandsgranskningLDP Visa dataförhandsgranskningsikon. Om du har valt en tabell klickar du på Alla tabeller för att återgå till alla tabeller.

När du förhandsgranskar tabelldata kan du filtrera eller sortera data på plats. Om du vill göra mer komplex analys kan du använda eller skapa en notebook-fil i mappen Utforskningar (förutsatt att du har kvar standardmappstrukturen). Som standard körs inte källkoden i den här mappen under en pipelineuppdatering, så du kan skapa frågor utan att påverka pipelineutdata.

Utförandeinsikter

Du kan se insikter om tabellutförande rörande den senaste pipelineuppdateringen i panelerna längst ned i redigeraren.

Panel Description
Tables Visar en lista över alla tabeller med deras status och mått. Om du väljer en tabell visas mått och prestanda för tabellen och en flik för dataförhandsgranskningen.
Performance Frågehistorik och profiler för alla flöden i den här pipelinen. Du kan komma åt exekveringsmått och detaljerade frågeplaner under och efter exekveringen. Mer information finns i Åtkomst till frågehistorik för pipelines .
Ärendepanel Klicka på panelen för en förenklad vy över fel, varningar och insikter för pipelinen. Klicka på en post för att se mer information och navigera sedan till platsen i koden där felet inträffade. Om felet finns i en annan fil än den som visas för närvarande omdirigeras du till filen där felet finns.
Klicka på Visa information för att se motsvarande händelseloggpost för fullständig information. Klicka på Visa loggar för att se den fullständiga händelseloggen.
Klicka på Diagnostisera fel för att felsöka problemet med ikonen för Sparkle Genie-kod. Genie Code.
Felindikatorer som fästs med kod visas för fel som är associerade med en viss del av koden. Om du vill ha mer information klickar du på felikonen eller hovra över den röda linjen. Ett popup-fönster med mer information visas. Du kan sedan klicka på Snabbkorrigering för att visa en uppsättning åtgärder för att felsöka felet.
Händelselogg Alla händelser som utlöstes under den senaste pipelinekörningen. Klicka på Visa loggar eller någon post i ärendefältet.

Pipelinekonfiguration

Du kan konfigurera din pipeline från pipelineredigeraren. Du kan göra ändringar i pipelineinställningarna, schemat eller behörigheterna.

Var och en av dessa kan nås från en knapp i sidhuvudet i redigeraren eller från ikoner i tillgångsläsaren (det vänstra sidofältet).

  • Inställningar (eller välj kugghjulsikon. i tillgångswebbläsaren):

    Du kan redigera inställningarna för pipelinen från inställningspanelen, inklusive allmän information, rotmapp och källkodskonfiguration, beräkningskonfiguration, meddelanden, avancerade inställningar med mera.

  • Schemaläggning (eller välj alternativet kalenderklocka ikonen i resurswebbläsaren.)

    Du kan skapa ett eller flera scheman för din pipeline från schemadialogrutan. Om du till exempel vill köra den dagligen kan du ange det här. Det skapar ett jobb för att köra pipelinen enligt det schema du väljer. Du kan lägga till ett nytt schema eller ta bort ett befintligt schema från schemadialogrutan.

  • Dela (eller välj Dela-ikon från Menyn Kebab. meny i tillgångsläsaren.):

    Du kan hantera behörigheter på pipelinen för användare och grupper från dialogrutan för pipelinebehörigheter.

Händelselogg

Du kan publicera händelseloggen för en pipeline till Unity Catalog. Som standard visas händelseloggen för din pipeline i användargränssnittet och är tillgänglig för frågor från ägaren.

  1. Öppna Inställningar.
  2. Klicka på Chevron höger-ikonen bredvid pilen Avancerade inställningar.
  3. Klicka på Redigera avancerade inställningar.
  4. Under Händelseloggar klickar du på Publicera till katalog.
  5. Ange ett namn, en katalog och ett schema för händelseloggen.
  6. Klicka på Spara.

Dina pipelinehändelser publiceras till den tabell som du har angett.

Mer information om hur du använder pipelinehändelseloggen finns i Fråga händelseloggen.

Pipelinemiljö

Du kan skapa en miljö för källkoden genom att lägga till beroenden i Inställningar.

  1. Öppna Inställningar.
  2. Under Pipelinemiljö klickar du på Redigera miljö.
  3. Klicka på Lägg till beroende för att lägga till ett beroende, som om du skulle lägga till det i en requirements.txt fil. Mer information om beroenden finns i Lägga till beroenden i notebook-filen.

Databricks rekommenderar att du fäster versionen med ==. Se PyPI-paketet.

Miljön gäller för alla källkodsfiler i pipelinen.

Meddelanden

Du kan lägga till meddelanden med hjälp av pipelineinställningarna.

  1. Öppna Inställningar.
  2. I avsnittet Meddelanden klickar du på Lägg till meddelande.
  3. Lägg till en eller flera e-postadresser och de händelser som du vill att de ska skickas till.
  4. Klicka på Lägg till meddelande.

Anmärkning

Skapa anpassade svar på händelser, inklusive meddelanden eller anpassad hantering, med hjälp av Python-händelsekrokar.

Övervaka pipelines

Azure Databricks innehåller även funktioner för att övervaka pipelines som körs. Redigeraren visar resultaten och körningsinsikterna om den senaste körningen. Den är optimerad för att hjälpa dig att iterera effektivt medan du utvecklar din pipeline interaktivt.

Med pipelineövervakningssidan kan du visa historiska körningar, vilket är användbart när en pipeline körs enligt ett schema med hjälp av ett jobb.

Anmärkning

Det finns en standardövervakningsupplevelse och en uppdaterad förhandsgranskningsövervakning. I följande avsnitt beskrivs hur du aktiverar eller inaktiverar förhandsgranskningsövervakningen. För information om båda upplevelserna, se Övervaka pipelines i UI.

Övervakningsupplevelsen är tillgänglig från knappen Jobb och pipelines till vänster på arbetsytan. Du kan också hoppa direkt till övervakningssidan från redigeraren genom att klicka på körningsresultaten i pipeline-resursbläddraren.

Länka till övervakningssidan från redigeraren

Mer information om övervakningssidan finns i dokumentationen Övervakning av pipelines i användargränssnittet. Övervakningsgränssnittet innehåller möjligheten att återgå till Lakeflow Pipelines-redigeraren genom att välja Redigera pipeline från huvudet i användargränssnittet.

Genie Code för pipelineutveckling

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Lakeflow Pipelines-redigeraren integreras med Genie Code, som kan generera, ändra och felsöka hela pipelines direkt från naturligt språk. Mer information finns i Använda Genie Code för pipelineutveckling.

Begränsningar och kända problem

Se följande begränsningar och kända problem för ETL-pipelineredigeraren i Lakeflow Deklarativa Spark-pipelines:

  1. Sidofältet för arbetsytans webbläsare fokuserar inte på pipelinen om du börjar med att öppna en fil i explorations mappen eller en notebook-fil, eftersom dessa filer eller notebook-filer inte ingår i pipelinens källkodsdefinition.

    Om du vill ange pipelinens fokusläge i arbetsytans webbläsare öppnar du en fil som är associerad med pipelinen.

  2. Dataförhandsgranskningar stöds inte för vanliga vyer.

  3. Python-moduler hittas inte från en UDF, även om de finns i din rotmapp eller på din sys.path. Du kan komma åt dessa moduler genom att lägga till sökvägen från UDF till sys.path, till exempel: sys.path.append(os.path.abspath(“/Workspace/Users/path/to/modules”))

  4. %pip install stöds inte från filer (standardtillgångstypen med den nya redigeraren). Du kan lägga till beroenden i inställningarna. Se Pipeline-miljö.

    Alternativt kan du fortsätta att använda %pip install från en notebook-fil som är associerad med en pipeline i dess källkodsdefinition.

Vanliga frågor

  1. Varför ska du använda filer och inte notebook-filer för källkod?

    Cellbaserad körning av notebook-filer är inte kompatibel med pipelines. Standardfunktioner i notebook-filer inaktiveras eller ändras när du arbetar med pipelines, vilket leder till förvirring för användare som är bekanta med notebook-beteende.

    I Lakeflow Pipelines-redigeraren används filredigeraren som grund för en förstklassig redigerare för pipelines. Funktioner riktas uttryckligen till pipelines, t.ex . Run tableRun Table Icon, i stället för att överbelasta välbekanta funktioner med olika beteende.

  2. Kan jag fortfarande använda notebook-filer som källkod?

    Ja, det kan du. Vissa funktioner, till exempel Run tableRun Table Icon eller Run file, finns dock inte.

    Om du har en befintlig pipeline med notebook-filer fungerar den fortfarande i den nya redigeraren. Databricks rekommenderar dock att du byter till filer för nya pipelines.

  3. Hur lägger jag till befintlig kod i en nyskapade pipeline?

    Du kan lägga till befintliga källkodsfiler i en ny pipeline. Följ dessa steg för att lägga till en mapp med befintliga filer:

    1. Klicka på Inställningar.
    2. Under Källkod klickar du på Konfigurera sökvägar.
    3. Klicka på Lägg till sökväg och välj mappen för de befintliga filerna.
    4. Klicka på Spara.

    Du kan också lägga till enskilda filer:

    1. Klicka på Alla filer i pipelinens tillgångswebbläsare.
    2. Navigera till din fil, klicka på Kebabmenyikonen. och klicka sedan på Inkludera i pipeline.

    Överväg att flytta filerna till rotmappen för pipelinen. Om de lämnas utanför rotmappen för pipelinen visas de i avsnittet Externa filer .

  4. Kan jag hantera pipelinens källkod i Git?

    Du kan hantera din pipelinekälla i Git genom att välja en Git-mapp när du först skapar pipelinen.

    Anmärkning

    När du hanterar källan i en Git-mapp läggs versionskontrollen till för källkoden. För att versionskontrollera konfigurationen rekommenderar Databricks dock att du använder deklarativa Automation-paket för att definiera pipelinekonfigurationen i paketkonfigurationsfiler som kan lagras i Git (eller ett annat versionskontrollsystem). Mer information finns i Vad är deklarativa automatiseringspaket?.

    Om du inte skapade pipelinen i en Git-mapp från början kan du flytta källan till en Git-mapp. Databricks rekommenderar att du använder redigeringsåtgärden för att flytta hela rotmappen till en Git-mapp. Detta uppdaterar alla inställningar i enlighet med detta. Se Rotmapp.

    Så här flyttar du rotmappen till en Git-mapp i webbläsaren för pipelinetillgången:

    1. Klicka på Kebabmenyikonen för rotmappen.
    2. Klicka på Flytta rotmapp.
    3. Välj en ny plats för rotmappen och klicka på Flytta.

    Mer information finns i avsnittet Rotmapp .

    Efter flytten visas den välbekanta Git-ikonen bredvid rotmappens namn.

    Viktigt!

    Om du vill flytta rotmappen för pipelinen använder du pipelinens tillgångswebbläsare och stegen ovan. Om du flyttar den på något annat sätt bryts pipelinekonfigurationerna och du måste konfigurera rätt mappsökväg manuellt i Inställningar.

  5. Kan jag ha flera pipelines i samma rotmapp?

    Det kan du, men Databricks rekommenderar att du bara har en enda pipeline per rotmapp.

  6. När ska jag köra en torrkörning?

    Klicka på Kör torrt för att kontrollera koden utan att uppdatera tabellerna.

  7. När ska jag använda tillfälliga vyer och när ska jag använda materialiserade vyer i min kod?

    Använd tillfälliga vyer när du inte vill materialisera data. Det här är till exempel ett steg i en sekvens med steg för att förbereda data innan de är redo att materialiseras med hjälp av en strömmande tabell eller en materialiserad vy som är registrerad i katalogen.