Tutorial: Ejecución de código desde PyCharm en el proceso clásico

Nota:

Este artículo se aplica a Databricks Connect para Databricks Runtime 13.3 LTS y versiones posteriores.

Databricks Connect permite conectar IDE populares, como PyCharm, servidores de cuadernos y otras aplicaciones personalizadas con Azure Databricks. Consulte Databricks Connect.

En este artículo se muestra cómo empezar a trabajar rápidamente con Databricks Connect para Python mediante PyCharm. Creará un proyecto en PyCharm, instalará Databricks Connect para Databricks Runtime 13.3 LTS y versiones posteriores, y ejecutará código sencillo en el proceso clásico en el área de trabajo de Databricks desde PyCharm.

Requisitos

Para completar este tutorial, debe cumplir los siguientes requisitos:

El área de trabajo, el entorno local y el proceso cumplen los requisitos de Databricks Connect para Python. Consulte Requisitos de uso de Databricks Connect.
Tiene PyCharm instalado. Este tutorial se ha probado con PyCharm Community Edition 2023.3.5. Si usa una versión o edición diferente de PyCharm, las instrucciones siguientes pueden variar.
Si está utilizando cómputo clásico, necesitará el ID del clúster. Para obtener el identificador del clúster, en el área de trabajo, haga clic en Proceso en la barra lateral y, a continuación, haga clic en el nombre del clúster. En la barra de direcciones del explorador web, copie la cadena de caracteres entre clusters y configuration en la dirección URL.

Paso 1: Configurar la autenticación de Azure Databricks

En este tutorial se utiliza la autenticación de usuario a máquina (U2M) de OAuth de Azure Databricks y un perfil de configuración para autenticar en el área de trabajo de Azure Databricks. Para usar un tipo de autenticación diferente, consulte Configuración de propiedades de conexión.

La configuración de la autenticación U2M de OAuth requiere la CLI de Databricks. Para información sobre cómo instalar la CLI de Databricks, consulte Instalación o actualización de la CLI de Databricks.

Inicie la autenticación U2M de OAuth, como se indica a continuación:

Use el CLI de Databricks para iniciar la administración de tokens de OAuth localmente mediante la ejecución del siguiente comando para cada área de trabajo de destino.

En el comando siguiente, reemplace <workspace-url> por la dirección URL de Azure Databricks per-workspace, por ejemplo, https://adb-1234567890123456.7.azuredatabricks.net.
```
databricks auth login --configure-cluster --host <workspace-url>
```
Sugerencia

Para usar la computación sin servidor con Databricks Connect, consulte Configurar una conexión a la computación sin servidor.
La CLI de Databricks le pide que guarde la información que especificó como un perfil de Azure Databricks configuration. Presione Enter para aceptar el nombre del perfil sugerido o escriba el nombre de un perfil nuevo o existente. Cualquier perfil existente con el mismo nombre se sobrescribe con la información que ha ingresado. Puede usar perfiles para cambiar rápidamente el contexto de autenticación entre varias áreas de trabajo.

Para obtener una lista de los perfiles existentes, en una terminal o una línea de comandos por separado, use la CLI de Databricks para ejecutar el comando databricks auth profiles. Para ver la configuración existente de un perfil específico, ejecute el comando databricks auth env --profile <profile-name>.
En el explorador web, complete las instrucciones en pantalla para iniciar sesión en el área de trabajo de Azure Databricks.
En la lista de clústeres disponibles que aparecen en el terminal o el símbolo del sistema, use las teclas de flecha arriba y flecha abajo para seleccionar el clúster de destino Azure Databricks en el área de trabajo y, a continuación, presione Enter. También puede escribir cualquier parte del nombre de visualización del clúster para filtrar la lista de clústeres disponibles.
Para ver el valor actual del token de OAuth de un perfil y la próxima marca de tiempo de expiración del token, ejecute uno de los siguientes comandos:
- databricks auth token --host <workspace-url>
- databricks auth token -p <profile-name>
- databricks auth token --host <workspace-url> -p <profile-name>
Si tiene varios perfiles con el mismo valor de --host, es posible que tenga que especificar las opciones --host y -p para ayudar a la CLI de Databricks a encontrar la información correcta del token de OAuth coincidente.

Paso 2: Crear el proyecto

Inicie PyCharm.
En el menú principal, haga clic en Archivo > Nuevo Proyecto.
En el cuadro de diálogo Nuevo Project, haga clic en Pure Python.
Para Location, haga clic en el icono de carpeta y complete las instrucciones en pantalla para especificar la ruta de acceso al nuevo proyecto de Python.
Deje Crear un script de bienvenida main.py seleccionado.
Para Interpreter type, haga clic en Project venv.
Despliegue la versión de Python y utilice el icono de carpeta o la lista desplegable para especificar la ruta al intérprete de Python mencionada en los requisitos anteriores.
Haga clic en Crear.

Creación del proyecto PyCharm

Paso 3: Agregar el paquete de Databricks Connect

En el menú principal de PyCharm, haga clic en View > Tool Windows > Python Packages.
En el cuadro de búsqueda, escriba databricks-connect.
En la lista del repositorio de PyPI, haga clic en databricks-connect.
En la lista desplegable más reciente del panel de resultados, seleccione la versión que coincida con la versión de Databricks Runtime del clúster. Por ejemplo, si el clúster tiene instalado Databricks Runtime 14.3, seleccione 14.3.1.
Haga clic en Instalar paquete.
Una vez instalado el paquete, puede cerrar la ventana Python Packages.

Instale el paquete de Databricks Connect

Paso 4: Agregar código

En la ventana de herramientas Project, haga clic con el botón derecho en la carpeta raíz del proyecto y haga clic en Nuevo Archivo de Python>.
Escriba main.py y haga doble clic en Python archivo.
Escriba el código siguiente en el archivo y, a continuación, guarde el archivo, en función del nombre del perfil de configuración.

Si el perfil de configuración del paso 1 se denomina DEFAULT, escriba el código siguiente en el archivo y guarde el archivo:
```
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.getOrCreate()

df = spark.read.table("samples.nyctaxi.trips")
df.show(5)
```
Si el perfil de configuración del paso 1 no se denomina DEFAULT, escriba el código siguiente en el archivo en su lugar. Reemplace el marcador de posición <profile-name> por el nombre del perfil de configuración del paso 1 y guarde el archivo:
```
from databricks.connect import DatabricksSession

spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()

df = spark.read.table("samples.nyctaxi.trips")
df.show(5)
```

Paso 5: ejecutar el código

Inicie el clúster de destino en el área de trabajo de Azure Databricks remota.
Una vez iniciado el clúster, en el menú principal, haga clic en Ejecutar > ejecutar "main".
En la ventana de herramientas Run (View > Tool Windows > Run), en el panel Runmain, aparecen las primeras 5 filas del samples.nyctaxi.trips.

Paso 6: Depurar el código

Con el clúster en ejecución, en el código anterior, haga clic en el margen junto a df.show(5) para establecer un punto de interrupción.
En el menú principal, haga clic en Ejecutar > Depuración 'main'.
En la ventana de herramientas Debug (View > Tool Windows > Debug), en la pestaña del panel DebuggerVariables, expanda los nodos de variables df y spark para examinar información sobre las variables de df y spark del código.
En la barra lateral de la ventana de la herramienta Depurar , haga clic en el icono de flecha verde (Reanudar programa).
En la pestaña Depurador del panel Consola, aparecen las 5 primeras filas de samples.nyctaxi.trips.

Depura el proyecto PyCharm

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-19