Partager via


Tutoriel : Exécuter du code à partir de PyCharm sur le calcul classique

Remarque

Cet article s’applique à Databricks Connect pour Databricks Runtime 13.3 LTS et versions ultérieures.

Databricks Connect vous permet de connecter des IDE populaires tels que PyCharm, des serveurs de notebooks et d'autres applications personnalisées aux systèmes de calcul Azure Databricks. Consultez Databricks Connect.

Cet article explique comment démarrer rapidement avec Databricks Connect pour Python à l’aide de PyCharm. Vous allez créer un projet dans PyCharm, installer Databricks Connect pour Databricks Runtime 13.3 LTS et versions ultérieures, puis exécuter du code simple sur le calcul classique dans votre espace de travail Databricks à partir de PyCharm.

Spécifications

Pour suivre ce tutoriel, vous devez répondre aux exigences suivantes :

  • Votre espace de travail, votre environnement local et votre calcul répondent aux exigences de Databricks Connect pour Python. Consultez les exigences d’utilisation de Databricks Connect.
  • PyCharm est installé. Ce tutoriel a été testé avec PyCharm Community Edition 2023.3.5. Si vous utilisez une version ou une édition différente de PyCharm, les instructions suivantes peuvent varier.
  • Si vous utilisez le calcul classique, vous aurez besoin de l’ID du cluster. Pour obtenir votre ID de cluster, dans votre espace de travail, cliquez sur Calcul dans la barre latérale, puis sur le nom de votre cluster. Dans la barre d’adresses de votre navigateur web, copiez la chaîne de caractères entre clusters et configuration dans l’URL.

Étape 1 : Configurer l’authentification Azure Databricks

Ce tutoriel utilise Azure Databricks authentification OAuth utilisateur-à-machine (U2M) et un profil de configuration pour Azure Databricks configuration pour l’authentification auprès de votre espace de travail Azure Databricks. Pour utiliser un autre type d’authentification, consultez la section Configurer les propriétés de connexion.

La configuration de l’authentification U2M OAuth nécessite l’interface CLI Databricks. Pour plus d’informations sur l’installation de l’interface CLI Databricks, consultez Installer ou mettre à jour l’interface CLI Databricks.

Lancez l’authentification OAuth U2M comme suit :

  1. Utilisez l’interface CLI Databricks pour lancer la gestion des jetons OAuth localement en exécutant la commande suivante pour chaque espace de travail cible.

    Dans la commande suivante, remplacez <workspace-url> par votre URL Azure Databricks per-workspace, par exemple https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Conseil / Astuce

    Pour utiliser le calcul serverless avec Databricks Connect, consultez Configurer une connexion à un calcul serverless.

  2. L’interface CLI Databricks vous invite à enregistrer les informations que vous avez entrées en tant que profil Azure Databricks configuration. Appuyez sur Enter pour accepter le nom de profil suggéré, ou entrez le nom d’un profil nouveau ou existant. Tout profil existant portant le même nom est remplacé par les informations que vous avez entrées. Vous pouvez utiliser des profils pour changer rapidement de contexte d’authentification entre plusieurs espaces de travail.

    Pour obtenir la liste des profils existants, dans un autre terminal ou une autre invite de commandes, utilisez l’interface CLI Databricks pour exécuter la commande databricks auth profiles. Pour afficher les paramètres existants d’un profil spécifique, exécutez la commande databricks auth env --profile <profile-name>.

  3. Dans votre navigateur web, suivez les instructions à l’écran pour vous connecter à votre espace de travail Azure Databricks.

  4. Dans la liste des clusters disponibles qui s’affichent dans votre terminal ou invite de commandes, utilisez vos flèches haut et bas pour sélectionner le cluster cible Azure Databricks dans votre espace de travail, puis appuyez sur Enter. Vous pouvez également taper n’importe quelle partie du nom d’affichage du cluster pour filtrer la liste des clusters disponibles.

  5. Pour afficher la valeur actuelle du jeton OAuth d’un profil et l’horodatage d’expiration à venir du jeton, exécutez l’une des commandes suivantes :

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Si vous avez plusieurs profils avec la même valeur pour --host, il peut être nécessaire de spécifier aussi les options --host et -p pour permettre à l’interface CLI Databricks de trouver les informations du jeton OAuth correspondant.

Étape 2 : créer le projet

  1. Démarrez PyCharm.
  2. Dans le menu principal, cliquez sur File > New Project.
  3. Dans la boîte de dialogue New Project, cliquez sur Pure Python.
  4. Pour Location, cliquez sur l’icône de dossier et suivez les instructions à l’écran pour spécifier le chemin d’accès à votre nouveau projet Python.
  5. Laissez Créer un script de bienvenue main.py sélectionné.
  6. Pour Type d'interprète, cliquez sur Project venv.
  7. Développez Python version et utilisez l’icône de dossier ou la liste déroulante pour spécifier le chemin d’accès à l’interpréteur Python des exigences précédentes.
  8. Cliquez sur Créer.

Créer le projet PyCharm

Étape 3 : Ajouter le package Databricks Connect

  1. Dans le menu principal de PyCharm, cliquez sur View > Tool Windows > Python Packages.
  2. Dans la zone de recherche, entrez databricks-connect.
  3. Dans la liste référentiel PyPI, cliquez sur databricks-connect.
  4. Dans la liste déroulante la plus récente du volet de résultats, sélectionnez la version qui correspond à la version databricks Runtime de votre cluster. Par exemple, si Databricks Runtime 14.3 est installé sur votre cluster, sélectionnez 14.3.1.
  5. Cliquez sur Installer le package.
  6. Une fois le package installé, vous pouvez fermer la fenêtre Python Packages.

Installez le package Databricks Connect

Étape 4 : Ajouter du code

  1. Dans la fenêtre de l'outil Project, cliquez avec le bouton droit sur le dossier racine du project, puis cliquez sur New > Python File.

  2. Entrez main.py et double-cliquez sur Python fichier.

  3. Entrez le code suivant dans le fichier, puis enregistrez le fichier, en fonction du nom de votre profil de configuration.

    Si votre profil de configuration de l’étape 1 s’appelle DEFAULT, entrez le code suivant dans le fichier, puis enregistrez le fichier :

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Si votre profil de configuration de l’étape 1 ne s’appelle pas DEFAULT, entrez le code suivant dans le fichier à la place. Remplacez l’espace réservé <profile-name> par le nom de votre profil de configuration défini à l’étape 1, puis enregistrez le fichier :

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Étape 5 : Exécuter le code

  1. Démarrez le cluster cible dans votre espace de travail Azure Databricks distant.
  2. Une fois le cluster démarré, dans le menu principal, cliquez sur Exécuter « > main ».
  3. Dans la fenêtre d'outils Run (View > Tool Windows > Run), dans le volet principal de l'onglet Run, les 5 premières lignes du samples.nyctaxi.trips apparaissent.

Étape 6 : Déboguer le code

  1. Le cluster étant toujours en cours d’exécution, dans le code précédent, cliquez sur la gouttière à côté de df.show(5) pour définir un point d’arrêt.
  2. Dans le menu principal, cliquez sur >.
  3. Dans la fenêtre outil Debug (View > Tool Windows > Debug), dans l'onglet Debugger du volet Variables, développez les nœuds de variables df et spark pour parcourir les informations sur les variables df et spark du code.
  4. Dans la barre latérale de la fenêtre Outil Debug , cliquez sur l’icône flèche verte (Reprendre le programme).
  5. Dans le volet Console de l’onglet Débogueur, les 5 premières lignes de samples.nyctaxi.trips apparaissent.

Déboguer le projet PyCharm