Konfigurera miljöversioner för arbetsflöden

Important

Miljöversioner för SDP finns i Beta.

En miljöversion fäster den Python språkversionen och uppsättningen förinstallerade Python bibliotek som är tillgängliga för pipelinens Python kod. Eventuella externa beroenden som du lägger till i pipelinen läggs ovanpå den här basen.

Miljöversioner frikopplar pipelinens Python körning från Databricks Runtime-versionen som pipelinen körs på. När en miljöversion har angetts ändrar inte Databricks Runtime-uppgraderingar din Python språkversion eller förinstallerade biblioteksversioner. Python-körningen överensstämmer också med serverlösa jobb och anteckningsböcker som använder samma miljöversion. Information om hur du hittar den aktuella Databricks Runtime-versionen för Lakeflow Spark Deklarativa pipelines finns i Viktig information om Lakeflow Spark Deklarativa pipelines och versionsuppgraderingsprocessen.

Important

Pipelines med en miljöversion kör Python kod via Spark Connect. Spark Connect ändrar beteendet för pipelinekod. Innan du aktiverar en miljöversion på en befintlig pipeline kan du läsa Miljöversionskompatibilitet för begränsningar, beteendeändringar, kompatibilitetsgenomsökning och arbetsflödet för migrering.

Krav

Miljöversioner har följande krav:

  • Pipelinen måste använda Unity Catalog. Hive metastore-pipelines stöds inte.

Miljöversioner som stöds

SDP stöder miljöversion 3 och 4 på både serverlös och klassisk beräkning. Information om Python-språkversionen och den fullständiga listan över förinstallerade Python-bibliotek som finns tillgängliga i respektive version finns i referensen för miljöversioner.

Aktivera en miljöversion på en pipeline

Du kan konfigurera en miljöversion via pipelineredigerarens användargränssnitt, PIPELINEs REST API eller deklarativa Automation-paket.

Kom ihåg att kontrollera kompatibiliteten med Spark Connect innan du aktiverar en miljöversion på en pipeline.

Aktivera via användargränssnittet

  1. Klicka på Inställningar i pipelineredigeraren.
  2. Under PipelineMiljö väljer du Pennikon.Redigera miljö.
  3. Välj en miljöversion i listrutan.
  4. Spara pipelineinställningarna.

Externa beroenden som läggs till i avsnittet Pipeline Environment läggs ovanpå de bibliotek som ingår i den valda miljöversionen. Se Hantera Python-beroenden för pipelines.

Aktivera via API:et

REST-API:et för pipelines tar emot ett environment-block när en pipeline skapas och uppdateras. Autentisering med personlig åtkomsttoken måste vara aktiverat för arbetsytan.

Så här skapar du en pipeline med en miljöversion:

curl --request POST \
  --url 'https://<workspace-host>/api/2.0/pipelines' \
  --header 'Authorization: Bearer <personal-access-token>' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "name": "<pipeline-name>",
    "catalog": "<catalog>",
    "schema": "<schema>",
    "channel": "CURRENT",
    "environment": {
      "environment_version": "4",
      "dependencies": [
        "simplejson==3.19.*"
      ]
    }
  }'

Om du vill ange miljöversionen på en befintlig pipeline skickar du samma environment block med PUT /api/2.0/pipelines/<pipeline-id>.

Aktivera genom deklarativa automatiseringspaket

När du skapar en pipeline med deklarativa Automation-paket kan du ange en miljöversion i YAML-definitionen av pipelinen.

  1. Kontrollera att Databricks CLI har version v0.294.0 eller senare. Om inte uppgraderar du genom att följa installationsguiden.
  2. Konfigurera en bundle genom att följa handledningen för pipelines bundle.
  3. Leta reda på pipeline-YAML-filen i din bundel, vanligtvis <bundle-folder>/resources/<pipeline_name>_pipeline.yml.
  4. Ange fälten environment_version och dependencies i yaml-pipelinen:
resources:
  pipelines:
    my_pipeline:
      name: my_pipeline
      catalog: ${var.catalog}
      schema: ${var.schema}
      root_path: '../src/my_pipeline'
      libraries:
        - glob:
            include: ../src/my_pipeline/transformations/**
      environment:
        environment_version: 4
        dependencies:
          - --editable ${workspace.file_path}

Kontrollera miljöversionen på en pipeline

Så här kontrollerar du om en miljöversion har konfigurerats på en pipeline:

  • UI: Öppna pipelineinställningarna och kontrollera avsnittet Pipeline Environment, eller granska JSON-panelen för fältet environment.environment_version.
  • API: Anropa GET /api/2.0/pipelines/<pipeline-id> och leta environment.environment_version efter i svaret.
  • Händelselogg: Kontrollera create_update händelsen för fältet environment_version .

Inaktivera miljöversionen på en pipeline

Ta bort miljöversionen via avsnittet Pipeline Environment i pipelineinställningar eller ta bort environment_version fältet från environment blocket i API:et eller paketdefinitionen.

När miljöversionen tas bort återgår pipelinen till den tidigare Python körningskonfigurationen.

Se även