Konfigurera den serverlösa miljön

Den här sidan förklarar hur du konfigurerar den serverlösa miljön för notebook-filer och jobbuppgifter. För anteckningsböcker använder du sidopanelen Miljö för att välja en basmiljö, installera beroenden, konfigurera minnesinställningar och tillämpa användningsprinciper. För jobbuppgifter konfigurerar du miljön när du skapar eller redigerar en uppgift.

Om du vill expandera fönstret Miljö klickar du på miljöknappen till höger om anteckningsboken.

Panelen för serverlös miljö

Välj en basmiljö

En basmiljö avgör vilka förinstallerade bibliotek och miljöversion som är tillgängliga för din serverlösa notebook. Basmiljöväljaren i fönstret Miljö är den plats där du väljer din miljö. Information om varje miljöversion finns i Serverlösa miljöversioner. Databricks rekommenderar att du använder den senaste versionen för att få ut mesta möjliga up-to-date notebook-funktioner.

Basmiljöväljaren innehåller följande alternativ:

  • Standard: Standardserverlös basmiljö med Databricks-bibliotek som tillhandahålls.
  • ML (Beta): En basmiljö med Python och systempaket från Databricks Runtime för strojové učenie förinstallerad. Använd den här miljön för att migrera klassiska Databricks Runtime för strojové učenie arbetsbelastningar till serverlös beräkning. Se ML-basmiljön.
  • AI: En AI-optimerad basmiljö med förinstallerade ML-bibliotek (Machine Learning). Det här alternativet visas bara när en accelerator (GPU) har valts.
  • Mer: Expanderar för att visa ytterligare alternativ:
    • Tidigare versioner av Standard-, ML- och AI-miljöer.
    • Anpassad: Ange en anpassad miljö med hjälp av en YAML-fil.
  • Arbetsytemiljöer: Visar en lista över alla kompatibla basmiljöer som konfigurerats för din arbetsyta av en administratör.

Så här väljer du en basmiljö:

  1. I anteckningsbokens användargränssnitt klickar du på sidofönstret EnvironmentMiljö.
  2. Under Basmiljö väljer du en miljö på den nedrullningsbara menyn.
  3. Klicka på Använd.

Lägga till beroenden i anteckningsboken

Eftersom serverlösa beräkningar inte stöder beräkningspolicyer eller init-skript måste du installera anpassade beroenden via sidopanelen Environment. Du kan installera beroenden individuellt eller använda en delbar basmiljö för att installera flera beroenden.

Azure Databricks lagrar notebookens virtuella miljö i cacheminnet, så beroendena installeras inte på nytt varje gång du öppnar en notebook igen eller återupptar arbetet efter inaktivitet. Jobbaktiviteter som delar samma beroendeuppsättning drar också nytta av den här cachen inom en körning.

Så här installerar du ett beroende individuellt:

  1. I anteckningsbokens användargränssnitt klickar du på sidofönstret Environmentmiljö.

  2. I avsnittet Beroenden klickar du på Lägg till beroende och anger sökvägen till beroendet i fältet. Du kan ange ett beroende i valfritt format som är giltigt i en requirements.txt fil. Python wheel-filer och Python-projekt (till exempel katalogen som innehåller en pyproject.toml eller en setup.py) kan lokaliseras i arbetsytefiler eller Unity Catalog-volymer.

    • Om du använder en arbetsytefil ska sökvägen vara absolut och börja med /Workspace/.
    • Om du använder en fil i en Unity Catalog-volym bör sökvägen vara i följande format: /Volumes/<catalog>/<schema>/<volume>/<path>.whl.
  3. Klicka på Apply för att installera beroendena och starta om Python processen.

Important

Installera inte PySpark eller något bibliotek som installerar PySpark som beroende på dina serverlösa notebookar. Om du gör det stoppas sessionen och det resulterar i ett fel. Om detta inträffar, ta bort biblioteket och återställ din miljö.

Om du vill visa installerade beroenden klickar du på fliken Installerade i sidopanelen Miljöer. Öppna pip-installationsloggarna för notebook-miljön genom att klicka på pip-loggarna längst ned i fönstret.

Note

Arbetsyteadministratörer kan konfigurera privata eller autentiserade paketlagringsplatser som standardkälla för serverlösa notebook-filer och jobb. På så sätt kan användare installera paket från interna lagringsplatser utan att ange index-url eller extra-index-url. Se Konfigurera standardlagringsplatser för Python paket.

Skapa en anpassad miljöspecifikation

Du kan skapa och återanvända anpassade miljöspecifikationer.

  1. I en serverlös anteckningsbok väljer du en basmiljö och installerar de beroenden du vill ha.
  2. Klicka på menyikonen för kebabmenyn. Längst ned i miljöfönstret klickar du sedan på Exportera miljö.
  3. Spara specifikationen som en arbetsytefil eller i en Unity Catalog-volym.

Om du vill använda din anpassade miljöspecifikation i en anteckningsbok väljer du Anpassad i listrutan Basmiljö och använder sedan mappikonen för att välja din YAML-fil.

Skapa vanliga verktyg att dela på din arbetsyta

Det här exemplet lagrar ett verktyg i en arbetsytefil och installerar det som ett serverlöst notebook-beroende:

  1. Skapa en mapp med följande struktur. Kontrollera att andra användare har läsbehörighet till den här sökvägen:

    helper_utils/
    ├── helpers/
    │   └── __init__.py   # your common functions live here
    ├── pyproject.toml
    
  2. pyproject.toml Fyll i så här:

    [project]
    name = "common_utils"
    version = "0.1.0"
    
  3. Lägg till en funktion i init.py filen. Till exempel:

    def greet(name: str) -> str:
        return f"Hello, {name}!"
    
  4. I notebookens användargränssnitt klickar du på sidopanelen Environmentikonen Environment..

  5. I avsnittet Beroenden klickar du på Lägg till beroende och anger sökvägen till din util-fil. Till exempel: /Workspace/helper_utils.

  6. Klicka på Använd.

Nu kan du använda funktionen i din notebook

from helpers import greet
print(greet('world'))

Detta ger som resultat:

Hello, world!

Använda AI Runtime (serverlös GPU)

Important

AI Runtime finns i offentlig förhandsversion.

Följ de här stegen för att konfigurera AI Runtime, som drivs av serverlös GPU-beräkning, på din Azure Databricks notebook-fil:

  1. Från en notebook klickar du på beräkningsrullgardinsmenyn längst upp och väljer Serverlös GPU.
  2. Klicka på miljöikonen för att öppna fönstret Miljösida .
  3. Välj A10 i fältet Accelerator .
  4. Under Basmiljö väljer du Standard för standardmiljön eller AI för den AI-optimerade miljön med förinstallerade maskininlärningsbibliotek (ML).
  5. Klicka på Användoch bekräfta sedan att du vill använda AI Runtime i notebook-miljön.

Mer information finns i AI Runtime.

Använda serverlös beräkning med hög minnesanvändning

Important

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Om du stöter på minnesfel i din notebook konfigurerar du notebooken så att den använder mer minne. Denna inställning för minnesstorlek ökar storleken på det REPL-minne som används när kod körs i anteckningsboken. Det påverkar inte minnesstorleken för Spark-sessionen. Serverlös användning med högt minne har en högre DBU-utsläppsfrekvens än standardminnet.

De tillgängliga minnesalternativen är:

  • Standard: 16 GB totalt minne.
  • Hög: 32 GB totalt minne.

Så här konfigurerar du minnesinställningen för notebook-filen:

  1. I anteckningsblockets användargränssnitt klickar du på sidopanelen MiljöMiljö.
  2. Under Memoryväljer du Hög minnesanvändning.
  3. Klicka på Använd.

Den här minnesinställningen gäller även för uppgifter för notebook-jobb som körs med hjälp av anteckningsbokens minnesinställningar. Uppdatering av minnesinställningarna i notebook-filen påverkar nästa jobbkörning.

Välj en serverlös användningsprincip

Important

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Med serverlösa användningsprinciper kan din organisation tillämpa anpassade taggar på serverlös användning för detaljerad faktureringsattribution.

Om din arbetsyta använder serverlösa användningsprinciper väljer du den princip som du vill tillämpa på notebook-filen. Om en användare endast tilldelas en serverlös användningsprincip gäller den principen som standard.

När du har anslutit till serverlös databehandling väljer du en policy i sidopanelen Environment:

  1. I notebookens användargränssnitt klickar du på sidofönstret Miljöenvironment.
  2. Under Serverlös användningsprincip väljer du den serverlösa användningsprincip som du vill tillämpa på din notebook.
  3. Klicka på Använd.

När principen har tillämpats får all användning av anteckningsböcker principens anpassade taggar.

Note

Om din notebook-fil härstammar från en Git-lagringsplats eller inte har någon tilldelad serverlös användningsprincip, kommer den att använda den senast valda serverlösa användningsprincipen som standard när den nästa gång kopplas till serverlös beräkning.

Inkludera miljön i källfilexporter

För Python-anteckningsböcker kan du aktivera eller inaktivera Inkludera i exporter av källfiler i miljöinställningarna. När den är aktiverad lagras basmiljön och beroendena i PEP 723-format i källfilexporter. Detta hjälper till att bevara miljökonfigurationen när notebook-filer lagras i Git-mappar eller laddas ned som källfiler.

En anteckningsbok som använder Standard v5 exporterar till exempel sin miljökonfiguration som inbäddade metadata överst i filen:

# Databricks notebook source
# /// script
# [tool.databricks.environment]
# environment_version = "5"
# ///
print("Hello World!")

Återställa miljöberoenden

Om din anteckningsbok är ansluten till serverlös beräkning lagrar Databricks automatiskt innehållet i anteckningsbokens virtuella miljö i cache. Det innebär att du vanligtvis inte behöver installera om de Python-beroenden som anges i Environment-sidofönstret när du öppnar en befintlig notebook, även om den har frånkopplats på grund av inaktivitet.

Python cachelagring av virtuell miljö gäller även för jobb. När ett jobb körs slutförs alla uppgifter som delar samma uppsättning beroenden som en slutförd uppgift i samma körning snabbare, eftersom cachen redan innehåller de nödvändiga beroendena.

Note

Om du ändrar implementeringen av ett anpassat Python-paket som används i ett jobb på serverlös arkitektur, måste du också uppdatera versionsnumret så att jobb kan hämta den senaste implementeringen.

Om du vill rensa miljöcachen och utföra en ny installation av de beroenden som anges i fönstret Miljösidan i en notebook-fil som är kopplad till serverlös beräkning klickar du på pilen bredvid Använd och klickar sedan på Återställ till standardvärden.

Om du installerar paket som bryter eller ändrar kärnan eller Apache Spark-miljön bör du ta bort de felaktiga paketen och sedan återställa miljön. Om du startar en ny session rensas inte hela miljöcachen.

Konfigurera miljö för jobbuppgifter

Varje jobbaktivitet körs i en isolerad miljö som innehåller en basmiljö och eventuella ytterligare bibliotek som du anger. Basmiljön anger Python- och Scala-körningsversionen och förinstallerade bibliotek. Aktiviteter ärver standarduppsättningen av installerade bibliotek från miljöversionen. Information om vad som ingår finns i avsnittet Installerade Python-bibliotek eller Installerade Java- och Scala-bibliotek i miljöversion du använder.

Du kan komplettera de förinstallerade biblioteken med bibliotek från arbetsytefiler, Unity Catalog-volymer eller offentliga paketlagringsplatser. Endast beroenden som krävs för uppgiften installeras vid körning.

Important

Användning av serverlös beräkning för JAR-uppgifter finns i offentlig förhandsversion.

Important

Val av en hanterad basmiljö är i beta. I listrutan Basmiljö i dialogrutan Konfigurera miljö kan du välja från Miljöer som tillhandahålls av Databricks (till exempel Standard och ML) eller arbetsytekonfigurerade miljöer. Utan den här funktionen visar dialogrutan listrutan Miljöversion i stället. Arbetsyteadministratörer kan aktivera den här funktionen från sidan Förhandsversioner .

Dialogrutan Konfigurera miljö som visar listrutan Basmiljö expanderad med avsnitten Databricks-miljöer och Arbetsytemiljöer

Konfigurera miljön efter aktivitetstyp

Hur du konfigurerar miljöer i ett jobb beror på aktivitetstypen:

Notebook-uppgifter

Notebook-uppgifter använder som standard Notebook Environment, som använder notebookens egen konfigurerade basmiljö och egna beroenden. Du kan åsidosätta detta med en miljö på jobbnivå.

Rullgardinsmenyn Miljö och bibliotek för en notebook-uppgift som visar alternativen Notebookmiljö och Jobbmiljö

Så här konfigurerar du en miljö på jobbnivå:

  1. I aktivitetskonfigurationen klickar du på den nedrullningsbara menyn Miljö och bibliotek .
  2. I Jobbmiljö klickar du på pennikonen bredvid Standard eller klickar på + Lägg till ny jobbmiljö.
  3. I dialogrutan Konfigurera miljö väljer du i listrutan Basmiljö :
    • Databricks-miljöer: Azure Databricks alternativ som Standard och ML.
    • Arbetsytemiljöer: Anpassade miljöer som konfigurerats av arbetsyteadministratören. Se Hantera arbetsytebasmiljöer.
    • Mer: Tidigare versioner och Anpassad (ange en YAML-fil).
  4. Under Beroenden lägger du till ytterligare bibliotek. Du kan ange ett bibliotek i valfritt format som är giltigt i en requirements.txt fil eller använda en absolut sökväg till en arbetsytefil eller Unity Catalog-volym.
  5. Klicka på Bekräfta.

Note

Om din arbetsyta inte har basmiljön för arbetsytan aktiverad för förhandsversionen av jobb, visas listrutan Miljöversion i dialogrutan Konfigurera miljö i stället för Basmiljö.

Om du vill konfigurera miljön väljer du en version och klickar sedan på + Lägg till bibliotek. Du kan ange en filsökväg för arbetsytan (från och med /Workspace/), en volymsökväg för Unity Catalog (från och med /Volumes/) eller en kravfilreferens (till exempel -r /Workspace/path/to/requirements.txt).

Python-skript- och Python wheel-aktiviteter

Python-skriptuppgifter och Python wheel-uppgifter kräver en konfigurerad miljö.

Avsnittet Miljö och bibliotek för en Python wheel-aktivitet som visar länken Lägg till beroende

  1. Under Miljö och bibliotek i aktivitetskonfigurationen klickar du på + Lägg till beroende.
  2. I dialogrutan Konfigurera miljö väljer du i listrutan Basmiljö :
    • Databricks-miljöer: Azure Databricks alternativ som Standard och ML.
    • Arbetsytemiljöer: Anpassade miljöer som konfigurerats av arbetsyteadministratören. Se Hantera arbetsytebasmiljöer.
    • Mer: Tidigare versioner och Anpassad (ange en YAML-fil).
  3. Under Beroenden lägger du till ytterligare bibliotek.
  4. Klicka på Bekräfta.

Note

Om din arbetsyta inte har basmiljön för arbetsytan aktiverad för förhandsversionen av jobb, visas listrutan Miljöversion i dialogrutan Konfigurera miljö i stället för Basmiljö.

Om du vill konfigurera miljön väljer du en version och klickar sedan på + Lägg till bibliotek. Du kan ange en filsökväg för arbetsytan (från och med /Workspace/), en volymsökväg för Unity Catalog (från och med /Volumes/) eller en kravfilreferens (till exempel -r /Workspace/path/to/requirements.txt).

Dbt-uppgifter

DBT-uppgifter använder en miljö på jobbnivå för bibliotekskonfiguration.

Rullgardinsmenyn Miljö och bibliotek för en dbt-uppgift som visar alternativ för jobbmiljö

Så här konfigurerar du en miljö på jobbnivå:

  1. I aktivitetskonfigurationen klickar du på den nedrullningsbara menyn Miljö och bibliotek .
  2. I Jobbmiljö klickar du på pennikonen bredvid en befintlig miljö eller klickar på + Lägg till ny jobbmiljö.
  3. I dialogrutan Konfigurera miljö väljer du i listrutan Basmiljö :
    • Databricks-miljöer: Azure Databricks alternativ som Standard och ML.
    • Arbetsytemiljöer: Anpassade miljöer som konfigurerats av arbetsyteadministratören. Se Hantera arbetsytebasmiljöer.
    • Mer: Tidigare versioner och Anpassad (ange en YAML-fil).
  4. Under Beroenden lägger du till ytterligare bibliotek. Du kan ange ett bibliotek i valfritt format som är giltigt i en requirements.txt fil eller använda en absolut sökväg till en arbetsytefil eller Unity Catalog-volym.
  5. Klicka på Bekräfta.

Note

Om din arbetsyta inte har basmiljön för arbetsytan aktiverad för förhandsversionen av jobb, visas listrutan Miljöversion i dialogrutan Konfigurera miljö i stället för Basmiljö.

Om du vill konfigurera miljön väljer du en version och klickar sedan på + Lägg till bibliotek. Du kan ange en filsökväg för arbetsytan (från och med /Workspace/), en volymsökväg för Unity Catalog (från och med /Volumes/) eller en kravfilreferens (till exempel -r /Workspace/path/to/requirements.txt).

JAR-uppgifter

Arbetsytebasmiljöer stöds inte för JAR-uppgifter. Så här konfigurerar du miljön för en JAR-uppgift:

avsnittet Miljö och bibliotek för en JAR-uppgift där länken Lägg till JAR-beroende visas

  1. Under Miljö och bibliotek i aktivitetskonfigurationen klickar du på + Lägg till JAR-beroende.
  2. I dialogrutan Konfigurera miljö :
    • Du kan också ange en sökväg till en YAML-fil i fältet Basmiljö .
    • Välj en miljöversion i listrutan Miljöversion .
    • Under JAR-beroenden lägger du till sökvägarna i DINA JAR-filer.
  3. Klicka på Bekräfta.

Information om hur du skapar en anpassad YAML-baserad basmiljö finns i Skapa en anpassad miljöspecifikation.

Miljö- och beräkningskompatibilitet

Basmiljön som du väljer måste vara kompatibel med uppgiftens beräkningstyp. En miljö som skapats för GPU-beräkning är till exempel inte kompatibel med CPU-beräkning. I jobbgränssnittet är inkompatibla miljöer inte tillgängliga i den nedrullningsbara menyn för basmiljön.

När du konfigurerar en notebook-uppgift kan beräkningstypen (CPU eller GPU) och basmiljön komma från antingen jobbinställningarna eller notebook-inställningarna.

  • Om du anger en maskinvaruaccelerator (GPU) på jobbnivå måste du också välja en basmiljö på jobbnivå. Du kan inte använda notebook-miljön med en accelerator på jobbnivå.
  • Om du har jobbuppgifter som refererar till en notebook-fil och du uppdaterar den refererade notebook-filens beräkningstyp (till exempel från CPU till GPU) kan befintliga uppgifter bli inkompatibla med deras konfigurerade miljö. Granska miljöinställningarna för jobbet efter att du har ändrat notebookens beräkningskonfiguration.
  • För API-användare: om du anger basmiljön på jobbnivå men notebook-filen definierar beräkningstypen, validerar Azure Databricks kompatibiliteten vid körning, inte när jobbet skapas. Om konfigurationen är inkompatibel misslyckas körningen med ett fel.