Hantera Python-beroenden för pipelines

Lakeflow Spark deklarativa rörledningar stöder externa beroenden i dina arbetsflöden. Databricks rekommenderar att du använder ett av två mönster för att installera Python-paket:

  1. Använd miljöinställningarna för att lägga till paket i pipelinemiljön för alla källfiler i en pipeline.
  2. Importera moduler eller bibliotek från källkod som lagras i arbetsytefiler. Se Importera Python-moduler från Git-mappar eller arbetsytefiler.

Pipelines stöder också användning av init-skript med klusteromfattning. Dessa externa beroenden, särskilt init-skript, ökar dock risken för problem med körningsuppgraderingar. Minimera användningen av init-skript i dina pipelines för att minimera dessa risker. Om bearbetningen kräver init-skript kan du automatisera testningen av din pipeline för att upptäcka problem tidigt. Om du använder init-skript rekommenderar Databricks att du ökar testfrekvensen.

Viktigt!

Eftersom JVM-bibliotek inte stöds i pipelines ska du inte använda ett init-skript för att installera JVM-bibliotek. Du kan dock installera andra bibliotekstyper, till exempel Python-bibliotek, med ett init-skript.

Python-bibliotek

Om du vill ange externa Python-bibliotek redigerar du miljön för din pipeline.

  1. Klicka på Inställningar i pipelineredigeraren.
  2. Under Pipeline-miljö väljer du Pennikon.Redigera miljö.
  3. Klicka på Plus-ikonen.Lägg till beroende.
  4. Ange namnet på beroendet. Databricks rekommenderar att du fäster versionen av biblioteket. Om du till exempel vill lägga till ett beroende av simplejson version 3.19 skriver du simplejson==3.19.*.

Du kan också installera ett Python-hjulpaket från en Unity Catalog-volym genom att ange dess sökväg, till exempel /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.

Miljöversion

Som standard kommer den Python språkversionen och förinstallerade biblioteksuppsättningen som är tillgängliga för din pipeline från den aktuella Databricks Runtime-kanalversionen. Se versionsinformationen för Lakeflow Spark Declarative Pipelines och processen för versionsuppgradering för aktuella versioner och paketlistorna för varje runtime-version.

Viktigt!

Den här funktionen finns i Beta. Arbetsyteadministratörer kan styra åtkomsten till den här funktionen från sidan Förhandsversioner . Se Hantera förhandsversioner av Azure Databricks.

Om du vill låsa Python-språkversionen och uppsättningen förinstallerade bibliotek oberoende av uppgraderingar av Databricks Runtime, konfigurerar du en miljöversion för pipelinen. När en miljöversion har angetts ändrar inte Databricks Runtime-uppgraderingar din Python språkversion eller förinstallerade biblioteksversioner, och eventuella externa beroenden som du lägger till via Environment inställningar läggs ovanpå den här basen. Se Konfigurera miljöversioner för pipelines.

Kan jag använda Scala- eller Java-bibliotek i pipelines?

Nej, pipelines stöder endast SQL och Python. Du kan inte använda JVM-bibliotek i en pipeline. Att installera JVM-bibliotek orsakar oförutsägbart beteende och kan sluta fungera i framtida versioner av Lakeflow Spark Declarative Pipelines. Om din pipeline använder ett init-skript måste du också se till att JVM-bibliotek inte installeras av skriptet.