Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Du kan skapa och köra ett jobb med hjälp av jobbgränssnittet eller utvecklarverktyg som Databricks CLI eller REST-API:et. Med hjälp av användargränssnittet eller API:et kan du reparera och köra ett misslyckat eller avbrutet jobb igen. Den här artikeln visar hur du skapar, konfigurerar och redigerar jobb i arbetsytan
- Mer information om hur du använder Databricks CLI för att skapa och köra jobb finns i Databricks CLI.
- Mer information om hur du använder jobb-API:et för att skapa och köra jobb finns i Jobb i REST API-referensen.
- Om du föredrar en IaC-metod (infrastruktur som kod) för att konfigurera jobb kan du använda deklarativa Automation-paket. Mer information om hur du använder paket för att konfigurera och samordna dina jobb finns i Deklarativa Automation-paket.
- Information om hur du kör och schemalägger jobb direkt i en Databricks-notebook-fil finns i Skapa och hantera schemalagda notebook-jobb.
Tips
Om du vill visa ett jobb som YAML klickar du på menyn kebab till vänster om Kör nu för jobbet och klickar sedan på Växla till kodversion (YAML).
Vilken är den minsta konfiguration som krävs för ett jobb?
Alla jobb på Azure Databricks kräver följande:
- En uppgift som innehåller logik som ska köras, till exempel en Databricks-notebook-fil. Se Konfigurera och redigera uppgifter i Lakeflow-jobb
- En beräkningsresurs för att köra logiken. Beräkningsresursen kan vara serverlös beräkning, klassisk jobbberäkning eller all-purpose compute. Se Konfigurera beräkning för jobb.
- Ett angivet schema för när jobbet ska köras. Du kan också utelämna att ange ett schema och utlösa jobbet manuellt.
- Ett unikt namn.
Skapa ett nytt jobb
I det här avsnittet beskrivs stegen för att skapa ett nytt jobb med en notebook-uppgift och schemalägga med arbetsytans användargränssnitt.
Jobb innehåller en eller flera uppgifter. Du skapar ett nytt jobb genom att konfigurera den första uppgiften för jobbet.
Anteckning
Varje aktivitetstyp har dynamiska konfigurationsalternativ i arbetsytans användargränssnitt. Se Konfigurera och redigera uppgifter i Lakeflow-jobb.
- På arbetsytan klickar du på
Jobb och pipelines i sidofältet.
- Klicka Skapa, sedan Jobb.
- Klicka på notebook-panelen för att konfigurera den första uppgiften. Om notebook-panelen inte är tillgänglig klickar du på Lägg till en annan aktivitetstyp och söker efter Notebook.
- Ange ett aktivitetsnamn.
- Välj en anteckningsbok för fältet Sökväg.
- Klicka på Skapa uppgift.
Om arbetsytan inte är aktiverad för serverlös beräkning för jobb måste du välja alternativet Compute. Databricks rekommenderar att du alltid använder jobbberäkning när du konfigurerar uppgifter.
Ett nytt jobb visas i listan över arbetsytejobb med standardnamnet New Job <date> <time>.
Du kan fortsätta att lägga till fler uppgifter i samma jobb om det behövs för arbetsflödet. Jobb med fler än 100 aktiviteter kan ha särskilda krav. Mer information finns i Jobb med ett stort antal aktiviteter.
Schemalägga ett jobb
Du kan bestämma när jobbet ska köras. Som standard körs den bara när du startar den manuellt, men du kan också konfigurera den så att den körs automatiskt. Du kan skapa en utlösare för att köra ett jobb enligt ett schema eller baserat på en händelse.
Kontrollera flödet av uppgifter i jobbet
När du konfigurerar flera uppgifter i jobb kan du använda specialiserade uppgifter för att styra hur aktiviteterna körs. Se Kontrollera flödet av uppgifter i Lakeflow-jobb.
Välj ett jobb att redigera i arbetsområdet
Om du vill redigera ett befintligt jobb med arbetsytans användargränssnitt gör du följande:
- Klicka på Jobb & Pipelines i sidofältet i din Azure Databricks-arbetsyta.
- Valfritt kan du välja filtren Jobb och Ägs av mig.
- Klicka på jobbets namnlänk .
Använd jobbgränssnittet för att göra följande:
- Redigera jobbinställningar
- Byta namn på, klona eller ta bort ett jobb
- Lägga till nya uppgifter i ett befintligt jobb
- Redigera aktivitetsinställningar
Anteckning
Du kan också visa JSON-definitionerna för användning med REST API hämta, skapaoch återställa slutpunkter.
Redigera jobbinställningar
Sidopanelen innehåller jobbinformationen. Du kan ändra jobbschemat eller utlösaren, jobbparametrar, beräkningskonfiguration, taggar, meddelanden, maximalt antal samtidiga körningar, tröskelvärden för varaktighet och Git-inställningar. Du kan också redigera jobbbehörigheter om jobbåtkomstkontroll är aktiverad.
Lägg till parametrar för alla jobbaktiviteter
Parametrar som konfigurerats på jobbnivå skickas till jobbets uppgifter som accepterar nyckel-värde-parametrar, inklusive Python wheel-filer som har konfigurerats för att acceptera nyckelordsargument. Se Parameterisera jobb.
Lägga till taggar i ett jobb
Om du vill lägga till etiketter eller nyckel/värde-attribut i jobbet kan du lägga till taggar när du redigerar jobbet. Du kan använda taggar för att filtrera jobb i Jobb-listan . Du kan till exempel använda en department tagg för att filtrera alla jobb som tillhör en viss avdelning.
Anteckning
Eftersom jobbtaggar inte är utformade för att lagra känslig information, till exempel personligt identifierbar information eller lösenord, rekommenderar Databricks att du endast använder taggar för icke-känsliga värden.
Taggar sprids också till jobbkluster som skapas när ett jobb körs, så att du kan använda taggar med din befintliga klusterövervakning.
Klicka på + Tagga på panelen Jobbinformation för att lägga till eller redigera taggar. Du kan lägga till taggen som en etikett eller nyckel/värde-par. Om du vill lägga till en etikett anger du etiketten i fältet Nyckel och lämnar fältet Värde tomt.
Använda Git med jobb
Du kan konfigurera jobbuppgifter för att checka ut källkoden direkt från en fjärransluten Git-lagringsplats. Anvisningar och metodtips, inklusive gles utcheckning för stora lagringsplatser, finns i Använda Git med Lakeflow-jobb.
Lägga till en serverlös användningsprincip i ett jobb
Viktig
Den här funktionen finns i offentlig förhandsversion.
Om din arbetsyta använder serverlösa användningsprinciper för att tillskriva serverlös användning kan du välja dina jobbs serverlösa användningsprincip med hjälp av inställningen Budgetprincip på panelen Jobbinformation . Se Attributanvändning med serverlösa användningsprinciper.
Byta namn på, klona eller ta bort ett jobb
Om du vill byta namn på ett jobb går du till jobbgränssnittet och klickar på jobbnamnet.
Du kan snabbt skapa ett nytt jobb genom att klona ett befintligt jobb. Kloning av ett jobb skapar en identisk kopia av jobbet förutom jobb-ID:t. Gör följande för att klona ett jobb:
- Klicka på
Jobb och pipelines i det vänstra sidofältet.
- Klicka på namnet på det jobb som du vill klona för att öppna användargränssnittet för jobb.
- Klicka på
Bredvid knappen Kör nu .
- Välj Klona jobb i den nedrullningsbara menyn.
- Ange ett namn för det klonade jobbet.
- Klicka på Klona.
Ta bort ett jobb
Om du vill ta bort ett jobb går du till jobbsidan, klickar på Bredvid jobbnamnet väljer du Ta bort jobb på den nedrullningsbara menyn.
Konfigurera tröskelvärden för jobbkörningens tidslängd eller mått för streaming-backlog.
Viktig
Strömningsobservabilitet för Lakeflow-jobb är tillgänglig i offentlig förhandsversion.
Du kan konfigurera valfria tröskelvärden för jobbkörningens varaktighet eller mått för strömmande kvarvarande uppgifter. Om du vill konfigurera tröskelvärden för varaktighet eller strömningsmått klickar du på tröskelvärden för varaktighet och strömning av kvarvarande uppgifter i jobbinformation panelen.
Om du vill konfigurera tröskelvärden för jobbvaraktighet, inklusive förväntade och maximala slutförandetider för jobbet, väljer du Kör varaktighet i listrutan Metric. Ange en varaktighet i fältet Varning för att konfigurera jobbets förväntade slutförandetid. Om jobbet överskrider det här tröskelvärdet utlöses en händelse. Du kan använda den här händelsen för att informera när ett jobb körs långsamt. Se Konfigurera meddelanden för långsamma jobb. Om du vill konfigurera en maximal slutförandetid för ett jobb anger du den maximala varaktigheten i fältet Tidsgräns . Om jobbet inte slutförs under den här tiden anger Azure Databricks dess status till "Timed Out".
Om du vill konfigurera ett tröskelvärde för ett strömningsmått för kvarvarande uppgifter väljer du måttet i listrutan Mått och anger ett värde för tröskelvärdet. Mer information om de specifika mått som stöds av en strömningskälla finns i Visa mått för strömningsuppgifter.
Om en händelse utlöses på grund av att ett tröskelvärde överskrids kan du använda händelsen för att skicka ett meddelande. Se Konfigurera meddelanden för långsamma jobb.
Du kan också ange tröskelvärden för varaktighet för aktiviteter. Se Konfigurera tröskelvärden för varaktighet för aktivitetskörning eller mått för strömning av kvarvarande uppgifter.
Aktivera kö för jobb
Anteckning
Köning är aktiverat som standard för jobb som skapats via användargränssnittet efter den 15 april 2024.
Om du vill förhindra att körningar av ett jobb hoppas över på grund av samtidighetsgränser, kan du aktivera köhantering för jobbet. När köning är aktiverat placeras körningen i kö i upp till 48 timmar om resurserna inte är tillgängliga för en jobbkörning. När kapacitet finns tillgänglig tas jobbet bort från kön och körs. Köade körningar visas i listan över körningar för jobbet och listan över de senaste jobbkörningarna.
En körning placeras i kö när någon av följande gränser har nåtts:
- Maximalt antal samtidiga aktiva körningar i arbetsområdet.
- Den maximala samtidiga
Run Jobaktiviteten körs på arbetsytan. - Maximalt antal samtidiga körningar av jobbet.
Köhantering är en egenskap på jobbnivå som säkerställer att körningar endast köas för det specifika jobbet.
Om du vill aktivera eller inaktivera köning klickar du på Avancerade inställningar och klickar på knappen Köväxling på sidan Jobbinformation .
Konfigurera maximala samtidiga körningar
Som standardinställning är det maximala antalet samtidiga körningar för alla nya jobb 1.
Klicka på Redigera samtidiga körningar under Avancerade inställningar för att ange det här jobbets maximala antal parallella körningar.
Azure Databricks hoppar över körningen om jobbet redan har nått sitt maximala antal aktiva körningar när ett försök görs att starta en ny körning.
Ange ett värde högre än 1 för att möjliggöra flera parallella körningar av samma jobb. Det här är till exempel användbart om du utlöser ditt jobb enligt ett frekvent schema och vill aktivera efterföljande körningar för att överlappa varandra eller utlösa flera körningar som skiljer sig åt genom sina indataparametrar.