Gerenciar dependências do Python para pipelines

O Lakeflow Spark Declarative Pipelines oferece suporte a dependências externas em seus pipelines. O Databricks recomenda usar um dos dois padrões para instalar pacotes do Python:

Use as configurações de ambiente para adicionar pacotes ao ambiente de pipeline para todos os arquivos de origem em um pipeline.
Importar módulos ou bibliotecas do código-fonte armazenado em arquivos de workspace. Consulte Importar módulos Python de pastas Git ou arquivos de espaço de trabalho.

Os pipelines também oferecem suporte ao uso de scripts de inicialização no escopo do cluster. No entanto, essas dependências externas, principalmente os scripts de inicialização, aumentam o risco de problemas com atualizações de runtime. Para mitigar esses riscos, minimize o uso de scripts de inicialização em seus pipelines. Se o processamento exigir scripts de inicialização, automatize o teste do pipeline para detectar problemas antecipadamente. Se você usa scripts de inicialização, a Databricks recomenda aumentar sua frequência de teste.

Importante

Como as bibliotecas JVM não têm suporte em pipelines, não use um script de inicialização para instalar bibliotecas JVM. No entanto, você pode instalar outros tipos de biblioteca, como bibliotecas python, com um script de inicialização.

Bibliotecas do Python

Para especificar bibliotecas externas em Python, edite o ambiente do seu pipeline.

No editor de pipeline, clique em Configurações.
No ambiente de pipeline, selecione o Editar ambiente.
Clique Adicionar dependência.
Digite o nome da dependência. O Databricks recomenda fixar a versão da biblioteca. Por exemplo, para adicionar uma dependência na simplejson versão 3.19, digite simplejson==3.19.*.

Você também pode instalar um pacote wheel do Python a partir de um volume do Unity Catalog, especificando seu caminho, como /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.

Versão do ambiente

Por padrão, a versão do idioma Python e o conjunto de bibliotecas pré-instalados disponíveis para o pipeline vêm da versão atual do canal do Databricks Runtime. Confira as notas de versão do Lakeflow Spark Declarative Pipelines e o processo de atualização para as versões atuais e as listas de pacotes de cada runtime.

Importante

Esse recurso está em Beta. Os administradores do workspace podem controlar o acesso a esse recurso na página Visualizações . Consulte Gerenciar visualizações do Azure Databricks.

Para fixar a versão do idioma Python e o conjunto de bibliotecas pré-instalados independentemente das atualizações do Databricks Runtime, configure uma versão de ambiente no pipeline. Enquanto uma versão do ambiente está definida, as atualizações do Databricks Runtime não alteram a versão do idioma Python ou as versões de biblioteca pré-instaladas e as dependências externas que você adiciona por meio das configurações Environment estão em camadas sobre essa base. Consulte Configurar versões de ambiente para pipelines.

Posso usar bibliotecas Scala ou Java em pipelines?

Não, os pipelines dão suporte apenas a SQL e Python. Você não pode usar bibliotecas JVM em um pipeline. A instalação de bibliotecas JVM pode causar comportamento imprevisível e pode deixar de funcionar em futuras versões do Lakeflow Spark Declarative Pipelines. Se o pipeline usar um script de inicialização, você também deverá garantir que as bibliotecas JVM não sejam instaladas pelo script.

Comentários

Esta página foi útil?

Last updated on 2026-06-01