Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Las canalizaciones declarativas de Lakeflow Spark permiten incluir dependencias externas en tus canalizaciones. Databricks recomienda usar uno de los dos patrones para instalar paquetes de Python:
- Use la configuración del entorno para agregar paquetes al entorno de canalización para todos los archivos de origen de una canalización.
- Importe módulos o bibliotecas del código fuente almacenado en archivos del área de trabajo. Consulte Importación de módulos de Python desde carpetas de Git o archivos de área de trabajo.
Las canalizaciones también admiten el uso de scripts de inicialización con ámbito de clúster. Sin embargo, estas dependencias externas, especialmente los scripts de inicialización, aumentan el riesgo de problemas con las actualizaciones en entorno de ejecución. Para mitigar estos riesgos, minimice el uso de scripts de inicialización en las canalizaciones. Si el procesamiento requiere scripts de inicialización, automatice las pruebas de la canalización para detectar problemas al principio. Si usa scripts de inicialización, Databricks recomienda aumentar la frecuencia de las pruebas.
Importante
Dado que las bibliotecas de JVM no se admiten en canalizaciones, no use un script de inicialización para instalar bibliotecas de JVM. Sin embargo, puede instalar otros tipos de biblioteca, como bibliotecas de Python, con un script de inicialización.
Bibliotecas de Python
Para especificar bibliotecas externas de Python, edite el entorno de la canalización.
- En el editor de canalización, haga clic en Configuración.
- En Entorno de canalización, seleccione
Editar entorno.
- Haga clic en
Agregar dependencia.
- Escriba el nombre de la dependencia. Databricks recomienda fijar la versión de la librería. Por ejemplo, para agregar una dependencia de la
simplejsonversión 3.19, escribasimplejson==3.19.*.
También puede instalar un paquete de ruedas de Python desde un volumen de catálogo de Unity especificando su ruta de acceso, como /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.
Versión del entorno
De forma predeterminada, la versión del lenguaje Python y el conjunto de bibliotecas preinstaladas disponibles para su canalización proceden de la versión actual del canal de Databricks Runtime. Consulte las notas de la versión de las canalizaciones declarativas de Spark de Lakeflow y el proceso de actualización para conocer las versiones actuales y las listas de paquetes para cada entorno de ejecución.
Importante
Esta característica se encuentra en su versión beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administrar versiones preliminares de Azure Databricks.
Para fijar la versión del lenguaje Python y el conjunto de bibliotecas preinstaladas de forma independiente de las actualizaciones de Databricks Runtime, configure una versión de entorno en la canalización. Mientras se establece una versión del entorno, las actualizaciones de Databricks Runtime no cambian la versión de idioma de Python ni las versiones de biblioteca preinstaladas y las dependencias externas que agregue a través de la configuración de Environment están superpuestas a esta base. Consulte Configuración de versiones de entorno para canalizaciones.
¿Puedo usar bibliotecas de Scala o Java en canalizaciones?
No, las canalizaciones solo admiten SQL y Python. No se pueden usar bibliotecas JVM en una canalización. La instalación de bibliotecas de la JVM provoca un comportamiento impredecible y puede dejar de funcionar en futuras versiones de Lakeflow Spark Declarative Pipelines. Si la canalización usa un script de inicialización, también debe asegurarse de que el script no instala las bibliotecas de JVM.