Migreren naar Databricks Connect voor Python

In dit artikel wordt beschreven hoe u migreert van Databricks Connect voor Databricks Runtime 12.2 LTS en hieronder naar Databricks Connect voor Databricks Runtime 13.3 LTS en hoger voor Python. Met Databricks Connect kunt u populaire IDE's, notebookservers en aangepaste toepassingen verbinden met Azure Databricks clusters. Zie Databricks Connect.

Voordat u Databricks Connect gaat gebruiken, moet u de Databricks Connect-client instellen.

Zie Migreren naar Databricks Connect voor Scala voor de Scala-versie van dit artikel.

Uw Python-project migreren

Als u uw bestaande Python codeproject of codeomgeving wilt migreren vanuit Databricks Connect voor Databricks Runtime 12.2 LTS en hieronder naar Databricks Connect voor Databricks Runtime 13.3 LTS en hoger:

Installeer de juiste versie van Python zoals vermeld in de installation-vereisten zodat deze overeenkomt met uw Azure Databricks-cluster als dit nog niet lokaal is geïnstalleerd.
Werk uw Python virtuele omgeving zo nodig bij om de juiste versie van Python te gebruiken die overeenkomt met uw cluster. Zie de documentatie van uw virtuele omgevingsprovider voor instructies.
Als uw virtuele omgeving is geactiveerd, verwijdert u PySpark uit uw virtuele omgeving:
```
pip3 uninstall pyspark
```
Als uw virtuele omgeving nog steeds is geactiveerd, verwijdert u Databricks Connect voor Databricks Runtime 12.2 LTS en hieronder:
```
pip3 uninstall databricks-connect
```
Als uw virtuele omgeving nog steeds is geactiveerd, installeert u Databricks Connect voor Databricks Runtime 13.3 LTS en hoger:
```
pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
```
Notitie

Databricks raadt aan om de "dot-asterisk" notatie toe te voegen aan databricks-connect==X.Y.* in plaats van databricks-connect=X.Y, om ervoor te zorgen dat het meest recente pakket is geïnstalleerd. Hoewel dit geen vereiste is, kunt u ervoor zorgen dat u de nieuwste ondersteunde functies voor dat cluster kunt gebruiken.
Werk uw Python-code bij om de variabele spark te initialiseren (die een instantie van de klasse DatabricksSession vertegenwoordigt, vergelijkbaar met SparkSession in PySpark). Zie de compute-configuratie voor Databricks Connect.
Migreer uw RDD-API's naar het gebruik van DataFrame-API's en migreer uw SparkContext naar alternatieven.

Hadoop-configuraties instellen

Op de client kunt u Hadoop-configuraties instellen met behulp van de spark.conf.set API, die van toepassing is op SQL- en DataFrame-bewerkingen. Hadoop-configuraties die op de sparkContext configuratie zijn ingesteld, moeten worden ingesteld in de clusterconfiguratie of met behulp van een notebook. Dit komt doordat configuraties die zijn ingesteld sparkContext , niet zijn gekoppeld aan gebruikerssessies, maar wel van toepassing zijn op het hele cluster.

Feedback

Is deze pagina nuttig?

Last updated on 2026-04-19

Migreren naar Databricks Connect voor Python

Uw Python-project migreren

Hadoop-configuraties instellen

Feedback

Aanvullende resources