Configuración del entorno sin servidor

En esta página se explica cómo configurar el entorno sin servidor para cuadernos y tareas de trabajo. En el caso de los cuadernos, use el panel lateral Entorno para seleccionar un entorno base, instalar dependencias, configurar la memoria y aplicar directivas de uso. Para las tareas de trabajo, configure el entorno al crear o editar una tarea.

Para expandir el panel lateral Entorno , haga clic en el botón entorno situado a la derecha del cuaderno.

Panel de entorno sin servidor

Selección de un entorno base

Un entorno base determina las bibliotecas preinstaladas y la versión del entorno disponibles para el cuaderno sin servidor. El selector de entorno base del panel lateral Entorno es donde elige el entorno. Para ver detalles sobre cada versión del entorno, consulte Versiones de entorno sin servidor. Databricks recomienda usar la versión más reciente para obtener las características del cuaderno más up-to-date.

El selector de entorno base incluye las siguientes opciones:

  • Estándar: el entorno base sin servidor predeterminado con bibliotecas proporcionadas por Databricks.
  • ML (Beta): entorno base con los paquetes de sistema y Python de Databricks Runtime para Machine Learning preinstalado. Utiliza este entorno para migrar las cargas de trabajo clásicas de Databricks Runtime for Machine Learning a computación sin servidor. Consulte Entorno base de ML.
  • IA: un entorno base optimizado para IA con bibliotecas de aprendizaje automático (ML) preinstaladas. Esta opción solo aparece cuando se selecciona un acelerador (GPU).
  • Más: expande para mostrar opciones adicionales:
    • Versiones anteriores de los entornos Standard, ML e IA.
    • Personalizado: especifique un entorno personalizado mediante un archivo YAML.
  • Entornos de área de trabajo: enumera todos los entornos base compatibles configurados para el área de trabajo por un administrador.

Para seleccionar un entorno base:

  1. En la interfaz de usuario del cuaderno, haga clic en el Entorno panel lateral panel lateral.
  2. En Entorno base, seleccione un entorno en el menú desplegable.
  3. Haga clic en Aplicar.

Adición de dependencias al cuaderno

Dado que Serverless no admite directivas de computación ni scripts de inicialización, debes instalar las dependencias personalizadas en el panel lateral Entorno. Puede instalar dependencias individualmente o usar un entorno base que se pueda compartir para instalar varias dependencias.

Azure Databricks almacena en caché el entorno virtual del cuaderno, por lo que las dependencias no se vuelven a instalar cada vez que vuelva a abrir un cuaderno o reanude después de la inactividad. Las tareas de trabajo que comparten el mismo conjunto de dependencias también se benefician de esta memoria caché dentro de una ejecución.

Para instalar individualmente una dependencia:

  1. En la interfaz de usuario del cuaderno, haga clic en el panel lateral Entornoentorno.

  2. En la sección Dependencias , haga clic en Agregar dependencia y escriba la ruta de acceso de la dependencia en el campo . Puede especificar una dependencia en cualquier formato que sea válido en un archivo requirements.txt. Archivos de rueda de Python o proyectos de Python (por ejemplo, el directorio que contiene un pyproject.toml o un setup.py) se pueden encontrar en archivos del espacio de trabajo o volúmenes de Unity Catalog.

    • Si usa un archivo del área de trabajo, la ruta de acceso debe ser absoluta e iniciar con /Workspace/.
    • Si se utiliza un archivo en un volumen de Unity Catalog, la ruta debe tener el siguiente formato: /Volumes/<catalog>/<schema>/<volume>/<path>.whl.
  3. Haga clic en Apply para instalar las dependencias y reiniciar el proceso de Python.

Important

No instale PySpark ni ninguna biblioteca que instale PySpark como dependencia en los cuadernos sin servidor. Si lo hace, se detendrá la sesión y se producirá un error. Si esto ocurre, quite la biblioteca y restablezca el entorno.

Para ver las dependencias instaladas, haga clic en la pestaña Instalado en el panel lateral Entornos . Abra los registros de instalación de pip del entorno del notebook haciendo clic en registros de pip en la parte inferior del panel.

Note

Los administradores del área de trabajo pueden configurar repositorios de paquetes privados o autenticados como el origen pip predeterminado para cuadernos y trabajos sin servidor. Esto permite a los usuarios instalar paquetes desde repositorios internos sin especificar index-url ni extra-index-url. Consulte Configurar repositorios de paquetes de Python predeterminados.

Creación de una especificación de entorno personalizada

Puede crear y reutilizar especificaciones de entorno personalizadas.

  1. En un cuaderno sin servidor, seleccione un entorno base e instale las dependencias que desee.
  2. Haga clic en el botón del menú kebab Icono del menú kebab. situado en la parte inferior del panel del entorno y, a continuación, haga clic en Exportar el entorno.
  3. Guarde la especificación como un archivo de área de trabajo o en un volumen de catálogo de Unity.

Para usar su especificación de entorno personalizada en un cuaderno, seleccione Personalizado en el menú desplegable de Entorno base y, a continuación, use el icono de carpeta para seleccionar su archivo YAML.

Creación de herramientas comunes para compartir en el área de trabajo

En este ejemplo se almacena una utilidad en un archivo de área de trabajo y se instala como una dependencia de cuaderno sin servidor:

  1. Cree una carpeta con la estructura siguiente. Asegúrese de que otros usuarios tengan acceso de lectura a esta ruta de acceso:

    helper_utils/
    ├── helpers/
    │   └── __init__.py   # your common functions live here
    ├── pyproject.toml
    
  2. Rellene pyproject.toml de esta manera:

    [project]
    name = "common_utils"
    version = "0.1.0"
    
  3. Agregue una función al init.py archivo. Por ejemplo:

    def greet(name: str) -> str:
        return f"Hello, {name}!"
    
  4. En la interfaz de usuario del cuaderno, haga clic en el panel lateral Entornoicono Entorno.

  5. En la sección Dependencias, haga clic en Agregar dependencia e introduzca la ruta de su archivo util. Por ejemplo: /Workspace/helper_utils.

  6. Haga clic en Aplicar.

Ahora puede usar la función en el cuaderno:

from helpers import greet
print(greet('world'))

Esta es la salida como:

Hello, world!

Uso de AI Runtime (GPU sin servidor)

Important

El entorno de ejecución de IA está en versión preliminar pública.

Siga estos pasos para configurar AI Runtime, impulsado por computación sin servidor con GPU, en el cuaderno de Azure Databricks:

  1. En un notebook, haga clic en el menú desplegable de cálculo en la parte superior y seleccione GPU sin servidor.
  2. Haga clic en el icono de Entorno para abrir el panel lateral Entorno.
  3. Seleccione A10 en el campo Acelerador .
  4. En Entorno base, seleccione Estándar para el entorno predeterminado o ia para el entorno optimizado para IA con bibliotecas de aprendizaje automático (ML) preinstaladas.
  5. Haga clic en Aplicar y, a continuación, confirme que desea aplicar AI Runtime a su entorno de cuaderno.

Para más información, consulte Entorno de ejecución de IA.

Uso de computación sin servidor con alta capacidad de memoria

Important

Esta característica está en versión preliminar pública.

Si se producen errores por falta de memoria en el cuaderno, configúrelo para usar un tamaño de memoria superior. Esta configuración de tamaño de memoria aumenta el tamaño de la memoria REPL que se usa al ejecutar código en el cuaderno. No afecta al tamaño de memoria de la sesión de Spark. El uso sin servidor con memoria alta tiene una tasa de emisión de DBU mayor que la memoria estándar.

Las opciones de memoria disponibles son:

  • Estándar: 16 GB de memoria total.
  • Alto: 32 GB de memoria total.

Para configurar las opciones de memoria del portátil:

  1. En la interfaz de usuario del cuaderno, haga clic en el panel lateral Entornoentorno.
  2. En Memoria, seleccione Memoria Alta.
  3. Haga clic en Aplicar.

Esta configuración de memoria también se aplica a las tareas de trabajo del cuaderno que se ejecutan con las preferencias de memoria del cuaderno. La actualización de la preferencia de memoria en el cuaderno afecta a la próxima ejecución de la tarea.

Selección de una directiva de uso sin servidor

Important

Esta característica está en versión preliminar pública.

Las políticas de uso serverless permiten a su organización aplicar etiquetas personalizadas en el uso serverless para la atribución de facturación pormenorizada.

Si el área de trabajo usa directivas de uso sin servidor, seleccione la directiva que desea aplicar al cuaderno. Si un usuario se asigna solo a una directiva de uso sin servidor, esa directiva se aplica de forma predeterminada.

Después de conectarse al cómputo sin servidor, seleccione una política en el panel lateral Environment:

  1. En la interfaz de usuario del cuaderno, haga clic en el panel lateral Entornoentorno.
  2. En Directiva de uso sin servidor, seleccione la directiva de uso sin servidor que desea aplicar al cuaderno.
  3. Haga clic en Aplicar.

Una vez aplicada, todo el uso del notebook hereda las etiquetas personalizadas de la directiva.

Note

Si el cuaderno se origina en un repositorio de Git o no tiene una directiva de uso sin servidor asignada, se establece por defecto en la última directiva de uso sin servidor elegida cuando se asocia a un cómputo sin servidor.

Incluir el entorno en las exportaciones de archivos de origen

Para los cuadernos de Python, puede activar o desactivar Incluir en las exportaciones de archivos fuente en la configuración del entorno. Cuando se habilita, el entorno base y las dependencias se almacenan en formato PEP 723 en las exportaciones de archivos de origen. Esto ayuda a conservar la configuración del entorno cuando los cuadernos se almacenan en carpetas de Git o se descargan como archivos de origen.

Por ejemplo, un cuaderno que usa Standard v5 exporta su configuración del entorno como metadatos en línea en la parte superior del archivo:

# Databricks notebook source
# /// script
# [tool.databricks.environment]
# environment_version = "5"
# ///
print("Hello World!")

Restablecer las dependencias del entorno

Si tu cuaderno de notas está conectado a una computación sin servidor, Databricks almacena automáticamente en caché el contenido del entorno virtual del cuaderno de notas. Por lo general, no es necesario volver a instalar las dependencias de Python especificadas en el Environment al abrir un cuaderno existente, incluso si se ha desconectado debido a la inactividad.

El almacenamiento en caché de entornos virtuales en Python también se aplica a los trabajos. Cuando se ejecuta un trabajo, cualquier tarea que comparta el mismo conjunto de dependencias que una tarea completada en la misma ejecución finaliza más rápido, ya que la memoria caché ya contiene las dependencias necesarias.

Note

Si cambia la implementación de un paquete de Python personalizado usado en un trabajo sin servidor, también debe actualizar su número de versión para que los trabajos puedan seleccionar la implementación más reciente.

Para borrar la memoria caché del entorno y realizar una instalación nueva de las dependencias especificadas en el panel lateral Entorno de un cuaderno asociado al proceso sin servidor, haga clic en la flecha situada junto a Aplicar y, a continuación, haga clic en Restablecer a los valores predeterminados.

Si instala paquetes que interrumpen o cambian el cuaderno principal o el entorno de Apache Spark, quite los paquetes infractores y, a continuación, restablezca el entorno. Iniciar una nueva sesión no borra toda la memoria caché del entorno.

Configuración del entorno para tareas de trabajo

Cada tarea de trabajo se ejecuta en un entorno aislado que incluye un entorno base y las bibliotecas adicionales que especifique. El entorno base establece el Python y la versión en tiempo de ejecución de Scala y las bibliotecas preinstaladas. Las tareas heredan el conjunto predeterminado de bibliotecas instaladas de la versión del entorno. Para ver qué se incluye, consulte la sección bibliotecas de Python instaladas o bibliotecas de Java y Scala instaladas de la versión del entorno que está usando.

Puede complementar las bibliotecas preinstaladas con bibliotecas de archivos del área de trabajo, volúmenes de Catálogo de Unity o repositorios de paquetes públicos. Solo se instalan las dependencias necesarias para la tarea en tiempo de ejecución.

Important

El uso de cómputo sin servidor para las tareas JAR está en versión preliminar pública.

Important

La selección de un entorno base administrado está en versión beta. La lista desplegable Entorno base del cuadro de diálogo Configurar entorno permite seleccionar entre entornos proporcionados por Databricks (como Standard y ML) o entornos configurados por el área de trabajo. Sin esta característica, el cuadro de diálogo muestra una lista desplegable Versión del entorno en su lugar. Los administradores del área de trabajo pueden habilitar esta característica desde la página Vistas previas .

Cuadro de diálogo Configurar entorno con el menú desplegable «Entorno base» expandido y las secciones Entornos de Databricks y Entornos del espacio de trabajo

Configuración del entorno por tipo de tarea

La configuración de entornos en un trabajo depende del tipo de tarea:

Tareas del notebook

Las tareas de cuaderno tienen como valor predeterminado El entorno de notebook, que usa el propio entorno y las dependencias base configurados del cuaderno. Puede sobrescribir esto con un entorno a nivel de trabajo.

Lista desplegable Entorno y bibliotecas para una tarea de cuaderno en la que se muestran las opciones Entorno de cuadernos y Entorno de trabajos

Para configurar un entorno a nivel de trabajo:

  1. En la configuración de la tarea, haga clic en el menú desplegable Entorno y bibliotecas .
  2. En Entorno de trabajos, haga clic en el icono de lápiz situado junto a Predeterminado o haga clic en + Agregar nuevo entorno de trabajos.
  3. En el cuadro de diálogo Configurar entorno , seleccione en el menú desplegable Entorno base :
    • Databricks environments: opciones proporcionadas por Azure Databricks, como Standard y ML.
    • Entornos de área de trabajo: entornos personalizados configurados por el administrador del área de trabajo. Consulte Administración de entornos base del área de trabajo.
    • Más: Versiones anteriores y Personalizado (especifique un archivo YAML).
  4. En Dependencias, agregue las bibliotecas adicionales. Puede especificar una librería en cualquier formato válido para un archivo requirements.txt o usar una ruta de acceso absoluta a un archivo del espacio de trabajo o a un volumen de Unity Catalog.
  5. Haga clic en Confirmar.

Note

Si el área de trabajo no tiene habilitado el entorno base del área de trabajo para trabajos en versión preliminar, el cuadro de diálogo Configurar entorno muestra una lista desplegable Versión del entorno en lugar de Entorno base.

Para configurar el entorno, seleccione una versión y haga clic en + Agregar biblioteca. Puede especificar una ruta de acceso a un archivo del área de trabajo (que empiece por /Workspace/), una ruta de acceso a un volumen de Unity Catalog (que empiece por /Volumes/) o una referencia a un archivo de requisitos (por ejemplo, -r /Workspace/path/to/requirements.txt).

Python script y tareas de rueda de Python

Las tareas de script de Python y de wheel de Python requieren que se configure un entorno.

Sección Entorno y bibliotecas de una tarea de wheel de Python en la que se muestra el enlace Agregar dependencia

  1. En la configuración de la tarea, en Entorno y bibliotecas, haga clic en + Agregar dependencia.
  2. En el cuadro de diálogo Configurar entorno , seleccione en el menú desplegable Entorno base :
    • Databricks environments: opciones proporcionadas por Azure Databricks, como Standard y ML.
    • Entornos de área de trabajo: entornos personalizados configurados por el administrador del área de trabajo. Consulte Administración de entornos base del área de trabajo.
    • Más: Versiones anteriores y Personalizado (especifique un archivo YAML).
  3. En Dependencias, agregue las bibliotecas adicionales.
  4. Haga clic en Confirmar.

Note

Si el área de trabajo no tiene habilitado el entorno base del área de trabajo para trabajos en versión preliminar, el cuadro de diálogo Configurar entorno muestra una lista desplegable Versión del entorno en lugar de Entorno base.

Para configurar el entorno, seleccione una versión y haga clic en + Agregar biblioteca. Puede especificar una ruta de acceso a un archivo del área de trabajo (que empiece por /Workspace/), una ruta de acceso a un volumen de Unity Catalog (que empiece por /Volumes/) o una referencia a un archivo de requisitos (por ejemplo, -r /Workspace/path/to/requirements.txt).

Tareas de dbt

Las tareas de DBT usan un entorno a nivel de trabajo para configurar la biblioteca.

Menú desplegable Entorno y bibliotecas de una tarea de dbt que muestra las opciones del entorno de Jobs

Para configurar un entorno a nivel de trabajo:

  1. En la configuración de la tarea, haga clic en el menú desplegable Entorno y bibliotecas .
  2. En Entorno de trabajos, haga clic en el icono de lápiz situado junto a un entorno existente o haga clic en + Agregar nuevo entorno de trabajos.
  3. En el cuadro de diálogo Configurar entorno , seleccione en el menú desplegable Entorno base :
    • Databricks environments: opciones proporcionadas por Azure Databricks, como Standard y ML.
    • Entornos de área de trabajo: entornos personalizados configurados por el administrador del área de trabajo. Consulte Administración de entornos base del área de trabajo.
    • Más: Versiones anteriores y Personalizado (especifique un archivo YAML).
  4. En Dependencias, agregue las bibliotecas adicionales. Puede especificar una librería en cualquier formato válido para un archivo requirements.txt o usar una ruta de acceso absoluta a un archivo del espacio de trabajo o a un volumen de Unity Catalog.
  5. Haga clic en Confirmar.

Note

Si el área de trabajo no tiene habilitado el entorno base del área de trabajo para trabajos en versión preliminar, el cuadro de diálogo Configurar entorno muestra una lista desplegable Versión del entorno en lugar de Entorno base.

Para configurar el entorno, seleccione una versión y haga clic en + Agregar biblioteca. Puede especificar una ruta de acceso a un archivo del área de trabajo (que empiece por /Workspace/), una ruta de acceso a un volumen de Unity Catalog (que empiece por /Volumes/) o una referencia a un archivo de requisitos (por ejemplo, -r /Workspace/path/to/requirements.txt).

Tareas JAR

Los entornos básicos del espacio de trabajo no son compatibles con las tareas JAR. Para configurar el entorno para una tarea JAR:

Sección Entorno y bibliotecas para una tarea JAR que muestra el enlace Agregar dependencia JAR

  1. En la configuración de la tarea, en Entorno y bibliotecas, haga clic en + Agregar dependencia jar.
  2. En el cuadro de diálogo Configurar entorno:
    • Opcionalmente, escriba una ruta de acceso a un archivo YAML en el campo Entorno base .
    • Seleccione una versión de entorno en el menú desplegable Versión de entorno.
    • En Dependencias JAR, agregue las rutas de los archivos JAR.
  3. Haga clic en Confirmar.

Para crear un entorno base basado en YAML personalizado, consulte Creación de una especificación de entorno personalizada.

Compatibilidad de entornos y cómputo

El entorno base que seleccione debe ser compatible con el tipo de proceso de la tarea. Por ejemplo, un entorno creado para el proceso de GPU no es compatible con el proceso de CPU. En la interfaz de usuario de trabajos, los entornos incompatibles no están disponibles en el menú desplegable del entorno base.

Al configurar una tarea de cuaderno, el tipo de proceso (CPU o GPU) y el entorno base pueden provenir de la configuración del trabajo o de la configuración del cuaderno.

  • Si establece un acelerador de hardware (GPU) en el nivel de tarea, también debe seleccionar un entorno base en ese nivel. No se puede usar el entorno del cuaderno de notas con un acelerador a nivel de trabajo.
  • Si tiene tareas de trabajo que hacen referencia a un cuaderno y actualiza el tipo de proceso del cuaderno al que se hace referencia (por ejemplo, de CPU a GPU), las tareas existentes podrían ser incompatibles con su entorno configurado. Revise la configuración del entorno del trabajo después de cambiar la configuración de cómputo del cuaderno.
  • Para los usuarios de API: si establece el entorno base a nivel de trabajo, pero el notebook define el tipo de proceso de ejecución, Azure Databricks valida la compatibilidad en tiempo de ejecución, no en el momento de crear el trabajo. Si la configuración no es compatible, se produce un error en la ejecución.