Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Opmerking
Dit artikel is van toepassing op Databricks Connect voor Databricks Runtime 13.3 LTS en hoger.
Met Databricks Connect kunt u populaire IDE's, zoals PyCharm, notebookservers en andere aangepaste toepassingen, verbinden met Azure Databricks compute. Zie Databricks Connect.
In dit artikel wordt beschreven hoe u snel aan de slag kunt met Databricks Connect voor Python met behulp van PyCharm. U maakt een project in PyCharm, installeert Databricks Connect voor Databricks Runtime 13.3 LTS en hoger en voert eenvoudige code uit op klassieke berekeningen in uw Databricks-werkruimte vanuit PyCharm.
Behoeften
Als u deze zelfstudie wilt voltooien, moet u aan de volgende vereisten voldoen:
- Uw werkruimte, lokale omgeving en berekening voldoen aan de vereisten voor Databricks Connect voor Python. Zie de gebruiksvereisten voor Databricks Connect.
- U hebt PyCharm geïnstalleerd. Deze handleiding is getest met PyCharm Community Edition 2023.3.5. Als u een andere versie of editie van PyCharm gebruikt, kunnen de volgende instructies variëren.
- Als u klassieke berekeningen gebruikt, hebt u de cluster-id nodig. Als u de cluster-id wilt ophalen, klikt u in uw werkruimte op Compute op de zijbalk en vervolgens op de naam van het cluster. Kopieer in de adresbalk van uw webbrowser de tekenreeks tussen
clustersenconfigurationin de URL.
Stap 1: Azure Databricks-verificatie configureren
In deze zelfstudie wordt gebruikgemaakt van Azure Databricks OAuth user-to-machine(U2M)-verificatie en een Azure Databricks configuratieprofiel voor verificatie bij uw Azure Databricks werkruimte. Zie Verbindingseigenschappen configureren als u een ander verificatietype wilt gebruiken.
Voor het configureren van OAuth U2M-verificatie is de Databricks CLI vereist. Zie De Databricks CLI installeren of bijwerken voor informatie over het installeren van de Databricks CLI.
Start OAuth U2M-verificatie als volgt:
Gebruik de Databricks CLI om OAuth-tokenbeheer lokaal te starten door de volgende opdracht uit te voeren voor elke doelwerkruimte.
Vervang in de volgende opdracht
<workspace-url>door de URL van uw Azure Databricks perwerkruimte, bijvoorbeeldhttps://adb-1234567890123456.7.azuredatabricks.net.databricks auth login --configure-cluster --host <workspace-url>Aanbeveling
Zie Een verbinding configureren met serverloze berekeningen om Serverless Compute te gebruiken met Databricks Connect.
De Databricks CLI vraagt u om de gegevens op te slaan die u hebt ingevoerd als een Azure Databricks configuratieprofiel. Druk
Enterom de voorgestelde profielnaam te accepteren of voer de naam van een nieuw of bestaand profiel in. Elk bestaand profiel met dezelfde naam wordt overschreven met de gegevens die u hebt ingevoerd. U kunt profielen gebruiken om snel uw verificatiecontext over te schakelen tussen meerdere werkruimten.Als u een lijst met bestaande profielen wilt ophalen, gebruikt u de Databricks CLI in een afzonderlijke terminal of opdrachtprompt om de opdracht uit te voeren
databricks auth profiles. Als u de bestaande instellingen van een specifiek profiel wilt weergeven, voert u de opdrachtdatabricks auth env --profile <profile-name>uit.Vul in uw webbrowser de instructies op het scherm in om u aan te melden bij uw Azure Databricks werkruimte.
Gebruik in de lijst met beschikbare clusters die worden weergegeven in uw terminal of opdrachtprompt de pijl-omhoogtoets en pijl-omlaagtoets om het doelcluster Azure Databricks in uw werkruimte te selecteren en druk vervolgens op
Enter. U kunt ook een deel van de weergavenaam van het cluster typen om de lijst met beschikbare clusters te filteren.Voer een van de volgende opdrachten uit om de huidige OAuth-tokenwaarde van een profiel en de geplande verlooptijdstempel van het token weer te geven:
databricks auth token --host <workspace-url>databricks auth token -p <profile-name>databricks auth token --host <workspace-url> -p <profile-name>
Als u meerdere profielen met dezelfde
--hostwaarde hebt, moet u mogelijk de--hosten-popties opgeven om de Databricks CLI te helpen de juiste overeenkomende OAuth-tokengegevens te vinden.
Stap 2: Het project maken
- Start PyCharm.
- Klik in het hoofdmenu op Bestand > Nieuw Project.
- Klik in het dialoogvenster Nieuw Project op Pure Python.
- Klik voor Locatie op het mappictogram en voltooi de aanwijzingen op het scherm om het pad naar het nieuwe Python-project op te geven.
- Laat Een main.py welkomstscript maken geselecteerd.
- Klik voor Interpretertype op Project venv.
- Vouw Python versie uit en gebruik het mappictogram of de vervolgkeuzelijst om het pad naar de Python-interpreter op te geven uit de voorgaande vereisten.
- Klik op Create.
Stap 3: Het Databricks Connect-pakket toevoegen
- Klik in het hoofdmenu van PyCharm op View > Tool Windows > Python Packages.
- Typ
databricks-connectin het zoekvak. - Klik in de lijst met PyPI-opslagplaatsen op Databricks-connect.
- Selecteer in de meest recente vervolgkeuzelijst van het resultaatvenster de versie die overeenkomt met de Databricks Runtime-versie van uw cluster. Als in uw cluster bijvoorbeeld Databricks Runtime 14.3 is geïnstalleerd, selecteert u 14.3.1.
- Klik op Pakket installeren.
- Nadat het pakket is geïnstalleerd, kunt u het venster Python Packages sluiten.
Stap 4: Code toevoegen
Klik in het venster Project met de rechtermuisknop op de hoofdmap van de project en klik op Nieuw > Python Bestand.
Voer
main.pyin en dubbelklik op Python-bestand.Voer de volgende code in het bestand in en sla het bestand op, afhankelijk van de naam van uw configuratieprofiel.
Als uw configuratieprofiel uit stap 1 de naam
DEFAULTheeft, voert u de volgende code in het bestand in en slaat u het bestand op:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)Als uw configuratieprofiel uit stap 1 geen naam
DEFAULTheeft, voert u in plaats daarvan de volgende code in het bestand in. Vervang de tijdelijke aanduiding<profile-name>door de naam van uw configuratieprofiel uit stap 1 en sla het bestand op:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Stap 5: De code uitvoeren
- Start het doelcluster in uw externe Azure Databricks werkruimte.
- Nadat het cluster is gestart, klikt u in het hoofdmenu op Uitvoeren > Uitvoeren 'main'.
- In het taakvenster Run (View > Tool Windows > Run), in het tabblad Run van het tabblad main worden de eerste vijf rijen van het
samples.nyctaxi.tripsweergegeven.
Stap 6: Fouten opsporen in de code
- Terwijl het cluster nog draait, klikt u in de code erboven op de margerand naast
df.show(5)om een breakpunt te zetten. - Klik in het hoofdmenu op
Debug 'main' uitvoeren. - In het hulpmiddelvenster Debug (View > Tool Windows > Debug), in het tabblad Debugger van het paneel Variables, vouw de variabele knooppunten df en spark uit om door informatie over de
dfensparkvariabelen van de code te bladeren. - Klik in de zijbalk van het hulpprogramma voor foutopsporing op het groene pijlpictogram (Programma hervatten).
- In het Foutopsporingsprogramma tabblad wordt in het Console venster de eerste vijf rijen van
samples.nyctaxi.tripsweergegeven.