Delen via


Zelfstudie: Code uitvoeren vanuit PyCharm op klassieke compute

Opmerking

Dit artikel is van toepassing op Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.

Met Databricks Connect kunt u populaire IDE's, zoals PyCharm, notebookservers en andere aangepaste toepassingen, verbinden met Azure Databricks compute. Zie Databricks Connect.

In dit artikel wordt beschreven hoe u snel aan de slag kunt met Databricks Connect voor Python met behulp van PyCharm. U maakt een project in PyCharm, installeert Databricks Connect voor Databricks Runtime 13.3 LTS en hoger en voert eenvoudige code uit op klassieke berekeningen in uw Databricks-werkruimte vanuit PyCharm.

Behoeften

Als u deze zelfstudie wilt voltooien, moet u aan de volgende vereisten voldoen:

  • Uw werkruimte, lokale omgeving en berekening voldoen aan de vereisten voor Databricks Connect voor Python. Zie de gebruiksvereisten voor Databricks Connect.
  • U hebt PyCharm geïnstalleerd. Deze handleiding is getest met PyCharm Community Edition 2023.3.5. Als u een andere versie of editie van PyCharm gebruikt, kunnen de volgende instructies variëren.
  • Als u klassieke berekeningen gebruikt, hebt u de cluster-id nodig. Als u de cluster-id wilt ophalen, klikt u in uw werkruimte op Compute op de zijbalk en vervolgens op de naam van het cluster. Kopieer in de adresbalk van uw webbrowser de tekenreeks tussen clusters en configuration in de URL.

Stap 1: Azure Databricks-verificatie configureren

In deze zelfstudie wordt gebruikgemaakt van Azure Databricks OAuth user-to-machine(U2M)-verificatie en een Azure Databricks configuratieprofiel voor verificatie bij uw Azure Databricks werkruimte. Zie Verbindingseigenschappen configureren als u een ander verificatietype wilt gebruiken.

Voor het configureren van OAuth U2M-verificatie is de Databricks CLI vereist. Zie De Databricks CLI installeren of bijwerken voor informatie over het installeren van de Databricks CLI.

Start OAuth U2M-verificatie als volgt:

  1. Gebruik de Databricks CLI om OAuth-tokenbeheer lokaal te starten door de volgende opdracht uit te voeren voor elke doelwerkruimte.

    Vervang in de volgende opdracht <workspace-url> door de URL van uw Azure Databricks perwerkruimte, bijvoorbeeld https://adb-1234567890123456.7.azuredatabricks.net.

    databricks auth login --configure-cluster --host <workspace-url>
    

    Aanbeveling

    Zie Een verbinding configureren met serverloze berekeningen om Serverless Compute te gebruiken met Databricks Connect.

  2. De Databricks CLI vraagt u om de gegevens op te slaan die u hebt ingevoerd als een Azure Databricks configuratieprofiel. Druk Enter om de voorgestelde profielnaam te accepteren of voer de naam van een nieuw of bestaand profiel in. Elk bestaand profiel met dezelfde naam wordt overschreven met de gegevens die u hebt ingevoerd. U kunt profielen gebruiken om snel uw verificatiecontext over te schakelen tussen meerdere werkruimten.

    Als u een lijst met bestaande profielen wilt ophalen, gebruikt u de Databricks CLI in een afzonderlijke terminal of opdrachtprompt om de opdracht uit te voeren databricks auth profiles. Als u de bestaande instellingen van een specifiek profiel wilt weergeven, voert u de opdracht databricks auth env --profile <profile-name>uit.

  3. Vul in uw webbrowser de instructies op het scherm in om u aan te melden bij uw Azure Databricks werkruimte.

  4. Gebruik in de lijst met beschikbare clusters die worden weergegeven in uw terminal of opdrachtprompt de pijl-omhoogtoets en pijl-omlaagtoets om het doelcluster Azure Databricks in uw werkruimte te selecteren en druk vervolgens op Enter. U kunt ook een deel van de weergavenaam van het cluster typen om de lijst met beschikbare clusters te filteren.

  5. Voer een van de volgende opdrachten uit om de huidige OAuth-tokenwaarde van een profiel en de geplande verlooptijdstempel van het token weer te geven:

    • databricks auth token --host <workspace-url>
    • databricks auth token -p <profile-name>
    • databricks auth token --host <workspace-url> -p <profile-name>

    Als u meerdere profielen met dezelfde --host waarde hebt, moet u mogelijk de --host en -p opties opgeven om de Databricks CLI te helpen de juiste overeenkomende OAuth-tokengegevens te vinden.

Stap 2: Het project maken

  1. Start PyCharm.
  2. Klik in het hoofdmenu op Bestand > Nieuw Project.
  3. Klik in het dialoogvenster Nieuw Project op Pure Python.
  4. Klik voor Locatie op het mappictogram en voltooi de aanwijzingen op het scherm om het pad naar het nieuwe Python-project op te geven.
  5. Laat Een main.py welkomstscript maken geselecteerd.
  6. Klik voor Interpretertype op Project venv.
  7. Vouw Python versie uit en gebruik het mappictogram of de vervolgkeuzelijst om het pad naar de Python-interpreter op te geven uit de voorgaande vereisten.
  8. Klik op Create.

Het PyCharm-project maken

Stap 3: Het Databricks Connect-pakket toevoegen

  1. Klik in het hoofdmenu van PyCharm op View > Tool Windows > Python Packages.
  2. Typ databricks-connect in het zoekvak.
  3. Klik in de lijst met PyPI-opslagplaatsen op Databricks-connect.
  4. Selecteer in de meest recente vervolgkeuzelijst van het resultaatvenster de versie die overeenkomt met de Databricks Runtime-versie van uw cluster. Als in uw cluster bijvoorbeeld Databricks Runtime 14.3 is geïnstalleerd, selecteert u 14.3.1.
  5. Klik op Pakket installeren.
  6. Nadat het pakket is geïnstalleerd, kunt u het venster Python Packages sluiten.

Het Databricks Connect-pakket installeren

Stap 4: Code toevoegen

  1. Klik in het venster Project met de rechtermuisknop op de hoofdmap van de project en klik op Nieuw > Python Bestand.

  2. Voer main.py in en dubbelklik op Python-bestand.

  3. Voer de volgende code in het bestand in en sla het bestand op, afhankelijk van de naam van uw configuratieprofiel.

    Als uw configuratieprofiel uit stap 1 de naam DEFAULTheeft, voert u de volgende code in het bestand in en slaat u het bestand op:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

    Als uw configuratieprofiel uit stap 1 geen naam DEFAULTheeft, voert u in plaats daarvan de volgende code in het bestand in. Vervang de tijdelijke aanduiding <profile-name> door de naam van uw configuratieprofiel uit stap 1 en sla het bestand op:

    from databricks.connect import DatabricksSession
    
    spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate()
    
    df = spark.read.table("samples.nyctaxi.trips")
    df.show(5)
    

Stap 5: De code uitvoeren

  1. Start het doelcluster in uw externe Azure Databricks werkruimte.
  2. Nadat het cluster is gestart, klikt u in het hoofdmenu op Uitvoeren > Uitvoeren 'main'.
  3. In het taakvenster Run (View > Tool Windows > Run), in het tabblad Run van het tabblad main worden de eerste vijf rijen van het samples.nyctaxi.trips weergegeven.

Stap 6: Fouten opsporen in de code

  1. Terwijl het cluster nog draait, klikt u in de code erboven op de margerand naast df.show(5) om een breakpunt te zetten.
  2. Klik in het hoofdmenu op Debug 'main' uitvoeren.
  3. In het hulpmiddelvenster Debug (View > Tool Windows > Debug), in het tabblad Debugger van het paneel Variables, vouw de variabele knooppunten df en spark uit om door informatie over de df en spark variabelen van de code te bladeren.
  4. Klik in de zijbalk van het hulpprogramma voor foutopsporing op het groene pijlpictogram (Programma hervatten).
  5. In het Foutopsporingsprogramma tabblad wordt in het Console venster de eerste vijf rijen van samples.nyctaxi.trips weergegeven.

Fouten opsporen in het PyCharm-project