Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Belangrijk
Databricks-gehoste RStudio Server is verouderd verklaard en is alleen beschikbaar op Databricks Runtime-versies 15.4 en lager. Zie Alternatieven voor gehoste RStudio Server voor andere opties.
Gebruik uw webbrowser om u aan te melden bij uw Azure Databricks-werkruimte en vervolgens verbinding te maken met een Azure Databricks-rekenproces waarop RStudio Server is geïnstalleerd, in die werkruimte.
Voor gehoste RStudio Server kunt u de Open Source-editie (OS) of RStudio Workbench (eerder RStudio Server Pro) gebruiken in Azure Databricks. Als u RStudio Workbench (RStudio Server Pro) wilt gebruiken, moet u uw bestaande RStudio Workbench-licentie (RStudio Server Pro) overdragen naar Azure Databricks. Zie RStudio Workbench (voorheen RStudio Server Pro).
Databricks raadt u aan om Databricks Runtime voor Machine Learning (Databricks Runtime ML) te gebruiken in Azure Databricks-rekenprocessen met RStudio Server om de begintijden van de berekening te verminderen. Databricks Runtime ML bevat een ongewijzigde versie van het RStudio Server Open Source Edition-pakket. De broncode voor dit pakket vindt u op GitHub. De volgende tabel bevat de versie van RStudio Server Open Source Edition die vooraf is geïnstalleerd in Databricks Runtime ML-versies.
| Databricks Runtime voor ML-versie | RStudio Server-versie |
|---|---|
| Databricks Runtime 9.1 LTS ML en 10.4 LTS ML | 1.4 |
RStudio Server Open Source (OS)
RStudio Server Open Source is vooraf geïnstalleerd op Azure Databricks-clusters die Databricks Runtime voor Machine Learning (Databricks Runtime ML) gebruiken.
Requirements
- Het cluster moet een cluster voor alle doeleinden zijn.
- U moet de machtiging CAN ATTACH TO voor dat cluster hebben. De clusterbeheerder kan u deze machtiging verlenen. Zie rekenmachtigingen.
- Het cluster mag niettoegangsbeheer voor tabellen hebben, automatische beëindigingof referentiepassthrough ingeschakeld.
- Het cluster mag destandaardtoegangsmodus niet gebruiken.
- Het cluster mag niet de Spark-configuratie ingesteld hebben op
spark.databricks.pyspark.enableProcessIsolationtrue. - U moet een drijvende Pro-licentie voor RStudio Server hebben om de Pro-editie te kunnen gebruiken.
Opmerking
Hoewel het cluster een -toegangsmodus kan gebruiken die ondersteuning biedt voor Unity Catalog, kunt u RStudio Server niet vanuit dat cluster gebruiken voor toegang tot gegevens in Unity Catalog.
RStudio Server openen
Ga als volgt te werk om het RStudio Server-besturingssysteem op een Databricks-cluster te openen:
Open de pagina met details van het cluster.
Start het cluster en klik vervolgens op het tabblad Apps :
Klik op het tabblad Apps op de knop RStudio- instellen. Hiermee wordt een eenmalig wachtwoord voor u gegenereerd. Klik op de koppeling Toon om het weer te geven en kopieer het wachtwoord.
Klik op de koppeling RStudio openen om de gebruikersinterface op een nieuw tabblad te openen. Voer uw gebruikersnaam en wachtwoord in het aanmeldingsformulier in en meld u aan.
Vanuit de gebruikersinterface van RStudio kunt u het
SparkR-pakket importeren en eenSparkRsessie instellen om Spark-taken in uw cluster te starten.library(SparkR) sparkR.session() # Query the first two rows of a table named "diamonds" in a # schema (database) named "default" and display the query result. df <- SparkR::sql("SELECT * FROM default.diamonds LIMIT 2") showDF(df)
U kunt ook het sparklyr-pakket koppelen en een Spark-verbinding instellen.
library(sparklyr) sc <- spark_connect(method = "databricks") # Query a table named "diamonds" and display the first two rows. df <- spark_read_table(sc = sc, name = "diamonds") print(x = df, n = 2)
RStudio Server-integratie
Wanneer u RStudio Server in Azure Databricks gebruikt, wordt de RStudio Server Daemon uitgevoerd op het stuurprogrammaknooppunt van een Azure Databricks-cluster. De RStudio-webinterface wordt geproxied via azure Databricks-web-app. Dit betekent dat u geen wijzigingen hoeft aan te brengen in de configuratie van uw clusternetwerk. In dit diagram ziet u de architectuur van het RStudio-integratieonderdeel.
Waarschuwing
Azure Databricks proxyt de RStudio-webservice vanuit poort 8787 op de Spark-driver van het cluster. Deze webproxy is alleen bedoeld voor gebruik met RStudio. Als u andere webservices op poort 8787 start, kunt u uw gebruikers blootstellen aan mogelijke beveiligingsexplots. Databricks en Microsoft zijn niet verantwoordelijk voor problemen die het gevolg zijn van de installatie van niet-ondersteunde software in een cluster.
RStudio Workbench (voorheen RStudio Server Pro)
In deze sectie wordt beschreven hoe u RStudio Workbench (voorheen RStudio Server Pro) instelt en gebruikt in een Azure Databricks-cluster. Afhankelijk van uw licentie kan RStudio Workbench RStudio Server Pro bevatten.
RStudio-licentieserver instellen
Als u RStudio Workbench in Azure Databricks wilt gebruiken, moet u uw Pro-licentie converteren naar een zwevende licentie. Neem voor hulp contact op met help@rstudio.com. Wanneer uw licentie wordt geconverteerd, moet u een licentieserver instellen voor RStudio Workbench.
Een licentieserver instellen:
- Start een klein exemplaar in uw cloudprovidernetwerk; de daemon van de licentieserver is lichtgewicht.
- Download en installeer de bijbehorende versie van RStudio License Server op uw exemplaar en start de service. Zie de beheerdershandleiding voor RStudio Workbench voor gedetailleerde instructies.
- Controleer of de poort van de licentieserver is geopend voor Azure Databricks-exemplaren.
RStudio Workbench installeren
Als u RStudio Workbench wilt instellen op een Azure Databricks-cluster, moet u een init-script maken om het binaire RStudio Workbench-pakket te installeren en te configureren voor het gebruik van uw licentieserver voor licentielease.
Opmerking
Als u van plan bent RStudio Workbench te installeren op een Databricks Runtime-versie die al een RStudio Server Open Source Edition-pakket bevat, moet u eerst dat pakket verwijderen om te kunnen worden geïnstalleerd.
Hier volgt een voorbeeld van .sh bestand dat u kunt opslaan als een init-script op een locatie, zoals in uw basismap als een werkruimtebestand, in een Unity Catalog-volume of in objectopslag. Raadpleeg Init-scripts op clusterniveau voor meer informatie. Het script voert ook aanvullende verificatieconfiguraties uit die de integratie met Azure Databricks stroomlijnen.
Waarschuwing
Init-scripts met clusterbereik op DBFS hebben het einde bereikt. Het opslaan van init-scripts in DBFS bestaat in sommige werkruimten ter ondersteuning van verouderde workloads en wordt niet aanbevolen. Alle init-scripts die zijn opgeslagen in DBFS, moeten worden gemigreerd. Zie Init-scripts migreren vanuit DBFS voor migratie-instructies.
#!/bin/bash
set -euxo pipefail
if [[ $DB_IS_DRIVER = "TRUE" ]]; then
sudo apt-get update
sudo dpkg --purge rstudio-server # in case open source version is installed.
sudo apt-get install -y gdebi-core alien
## Installing RStudio Workbench
cd /tmp
# You can find new releases at https://rstudio.com/products/rstudio/download-commercial/debian-ubuntu/.
wget https://download2.rstudio.org/server/bionic/amd64/rstudio-workbench-2022.02.1-461.pro1-amd64.deb -O rstudio-workbench.deb
sudo gdebi -n rstudio-workbench.deb
## Configuring authentication
sudo echo 'auth-proxy=1' >> /etc/rstudio/rserver.conf
sudo echo 'auth-proxy-user-header-rewrite=^(.*)$ $1' >> /etc/rstudio/rserver.conf
sudo echo 'auth-proxy-sign-in-url=<domain>/login.html' >> /etc/rstudio/rserver.conf
sudo echo 'admin-enabled=1' >> /etc/rstudio/rserver.conf
sudo echo 'export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin' >> /etc/rstudio/rsession-profile
# Enabling floating license
sudo echo 'server-license-type=remote' >> /etc/rstudio/rserver.conf
# Session configurations
sudo echo 'session-rprofile-on-resume-default=1' >> /etc/rstudio/rsession.conf
sudo echo 'allow-terminal-websockets=0' >> /etc/rstudio/rsession.conf
sudo rstudio-server license-manager license-server <license-server-url>
sudo rstudio-server restart || true
fi
- Vervang
<domain>door uw Azure Databricks-URL en<license-server-url>door de URL van uw zwevende licentieserver. - Sla dit
.shbestand op als een init-script op een locatie, zoals in uw basismap als een werkruimtebestand, in een Unity Catalog-volume of in objectopslag. Raadpleeg init-scripts met clusterbereik voor meer informatie. - Voordat u een cluster start, voegt u dit
.shbestand toe als een init-script vanaf de bijbehorende locatie. Zie Init-scripts met clusterbereik voor instructies. - Start het cluster.
RStudio Workbench openen
Open de pagina met details van het cluster.
Start het cluster en klik op het tabblad Apps :
Klik op het tabblad Apps op de knop RStudio- instellen.
U hebt het eenmalige wachtwoord niet nodig. Klik op de koppeling RStudio UI openen en er wordt een geverifieerde RStudio Pro-sessie voor u geopend.
Vanuit de gebruikersinterface van RStudio kunt u het
SparkR-pakket koppelen en eenSparkRsessie instellen om Spark-taken in uw cluster te starten.library(SparkR) sparkR.session() # Query the first two rows of a table named "diamonds" in a # schema (database) named "default" and display the query result. df <- SparkR::sql("SELECT * FROM default.diamonds LIMIT 2") showDF(df)
U kunt ook het sparklyr-pakket koppelen en een Spark-verbinding instellen.
library(sparklyr) sc <- spark_connect(method = "databricks") # Query a table named "diamonds" and display the first two rows. df <- spark_read_table(sc = sc, name = "diamonds") print(x = df, n = 2)
Veelgestelde vragen over RStudio Server
Wat is het verschil tussen RStudio Server Open Source Edition en RStudio Workbench?
RStudio Workbench ondersteunt een breed scala aan bedrijfsfuncties die niet beschikbaar zijn in de Open Source Edition. U kunt de functievergelijking bekijken op de website van RStudio.
Daarnaast wordt RStudio Server Open Source Edition gedistribueerd onder de GNU Affero General Public License (AGPL), terwijl de Pro-versie wordt geleverd met een commerciële licentie voor organisaties die geen AGPL-software kunnen gebruiken.
Tot slot wordt RStudio Workbench geleverd met professionele en zakelijke ondersteuning van RStudio, PBC, terwijl RStudio Server Open Source Edition zonder ondersteuning wordt geleverd.
Kan ik mijn RStudio Workbench-licentie (RStudio Server Pro) gebruiken in Azure Databricks?
Ja, als u al een Pro- of Enterprise-licentie voor RStudio Server hebt, kunt u die licentie gebruiken in Azure Databricks. Zie RStudio Workbench (voorheen RStudio Server Pro) voor meer informatie over het instellen van RStudio Workbench in Azure Databricks.
Waar wordt RStudio Server uitgevoerd? Moet ik aanvullende services/servers beheren?
Zoals u kunt zien in het diagram in RStudio Server-integratie, wordt de RStudio Server-daemon uitgevoerd op het stuurprogrammaknooppunt (hoofdknooppunt) van uw Azure Databricks-cluster. Met RStudio Server Open Source Edition hoeft u geen extra servers of services uit te voeren. Voor RStudio Workbench moet u echter een afzonderlijk exemplaar beheren waarop RStudio License Server wordt uitgevoerd.
Kan ik RStudio Server gebruiken op een standaardcluster?
Opmerking
Op deze pagina wordt de gebruikersinterface van verouderde clusters beschreven. Zie de referentie voor compute-configuratie voor informatie over de gebruikersinterface van nieuwe clusters, inclusief terminologiewijzigingen voor clustertoegangsmodi. Zie Clusters UI-wijzigingen en clustertoegangsmodi voor een vergelijking van de nieuwe en verouderde clustertypen.
Ja, dat kan.
Kan ik RStudio Server op een cluster gebruiken met automatische beëindiging?
Nee, u kunt RStudio niet gebruiken wanneer automatische beëindiging is ingeschakeld. Automatische beëindiging kan niet-opgeslagen gebruikersscripts en -gegevens in een RStudio-sessie opschonen. Om gebruikers te beschermen tegen dit onbedoelde scenario voor gegevensverlies, wordt RStudio standaard uitgeschakeld op dergelijke clusters.
Voor klanten die clusterresources moeten opschonen wanneer ze niet worden gebruikt, raadt Databricks aan om cluster-API's te gebruiken om RStudio-clusters op te schonen op basis van een schema.
Hoe kan ik mijn werk in RStudio behouden?
Databricks raadt u aan uw werk te behouden met behulp van een versiebeheersysteem van RStudio. RStudio biedt ondersteuning voor verschillende versiebeheersystemen en stelt u in staat om uw projecten in te checken en te beheren. Als u uw code niet persistent maakt met een van de volgende opties, loopt u het risico dat uw werk verloren gaat als een werkruimtebeheerder het cluster opnieuw start of beëindigt.
Een optie is om uw bestanden (code of gegevens) op te slaan in de werkruimte of een volume. Als u bijvoorbeeld een bestand opslaat onder /Workspace/, zullen de bestanden niet worden verwijderd wanneer uw cluster wordt beëindigd of opnieuw wordt opgestart.
Een andere optie is om het R-notebook op te slaan in uw lokale bestandssysteem door het te exporteren als Rmarkdownen het bestand later te importeren in het RStudio-exemplaar. In de blog R Notebooks delen met RMarkdown worden de stappen in meer detail beschreven.
Hoe kan ik een SparkR sessie starten?
Belangrijk
SparkR in Databricks is verouderd verklaard in Databricks Runtime 16.0 en hoger.
SparkR is opgenomen in Databricks Runtime, maar u moet deze in RStudio laden. Voer de volgende code uit in RStudio om een SparkR sessie te initialiseren.
library(SparkR)
sparkR.session()
Als er een fout optreedt bij het importeren van het SparkR pakket, voert u .libPaths() uit en controleert u of het /home/ubuntu/databricks/spark/R/lib pakket in het resultaat is opgenomen.
Als deze niet is opgenomen, controleert u de inhoud van /usr/lib/R/etc/Rprofile.site. Vermeld /home/ubuntu/databricks/spark/R/lib/SparkR op het stuurprogramma om te controleren of het SparkR-pakket is geïnstalleerd.
Hoe kan ik een sparklyr sessie starten?
Het sparklyr pakket moet op het cluster worden geïnstalleerd. Gebruik een van de volgende methoden om het sparklyr pakket te installeren:
- Als een Azure Databricks-bibliotheek
-
install.packages()opdracht - Gebruikersinterface voor RStudio-pakketbeheer
library(sparklyr)
sc <- spark_connect(method = “databricks”)
Hoe kan RStudio worden geïntegreerd met Azure Databricks R-notebooks?
U kunt uw werk verplaatsen tussen notebooks en RStudio via versiebeheer.
Wat is de werkmap?
Wanneer u een project in RStudio start, kiest u een werkmap. Dit is standaard de basismap in de stuurprogrammacontainer (hoofdcontainer) waarop RStudio Server wordt uitgevoerd. U kunt deze map wijzigen als u dat wilt.
Kan ik Shiny Apps starten vanuit RStudio die wordt uitgevoerd op Azure Databricks?
Ja, u kunt Shiny-toepassingen ontwikkelen en weergeven in RStudio Server op Databricks.
Ik kan terminal of git niet gebruiken in RStudio in Azure Databricks. Hoe kan ik dat oplossen?
Zorg ervoor dat u websockets hebt uitgeschakeld. In RStudio Server Open Source Edition kunt u dit doen vanuit de gebruikersinterface.
In RStudio Server Pro kunt u allow-terminal-websockets=0 toevoegen aan /etc/rstudio/rsession.conf om websockets voor alle gebruikers uit te schakelen.
Ik zie het tabblad Apps niet onder clusterdetails.
Deze functie is niet beschikbaar voor alle klanten. U moet zich in het Premium-abonnement bevinden.
Alternatieven voor gehoste RStudio Server
Databricks blijft de gehoste RStudio Server ondersteunen op Databricks-runtimes 15.4 en lager tot het einde van de ondersteuning. Databricks Runtime 15.4 LTS blijft bijvoorbeeld ondersteuning bieden voor de gehoste RStudio Server tot 19 augustus 2027.
Als u meer tijd nodig hebt voor migratie, kunt u de gehoste RStudio Server blijven gebruiken totdat de einddatum van de ondersteuning van uw runtime is bereikt. Als u een upgrade uitvoert naar een nieuwere LTS-runtime, zoals 15.4, wordt uw ondersteuningsperiode verlengd.
Alternatief 1: Posit Workbench
In samenwerking met Databricks biedt Posit PBC een systeemeigen integratie van Posit Workbench voor Databricks.
Met de integratie kunt u verbinding maken met Databricks Compute vanuit RStudio Pro en bevat functies zoals ondersteuning voor Unity Catalog en beheerde Databricks OAuth-referenties.
Alternatief 2: RStudio Desktop
Verbind RStudio Desktop met een Azure Databricks-rekenresource of SQL Warehouse vanaf uw lokale ontwikkelcomputer.
U kunt Databricks Connect gebruiken via sparklyr of het ODBC-stuurprogramma van Databricks via het odbc R-pakket. Deze methode biedt ook ondersteuning voor Unity Catalog.
Alternatief 3: Databricks-notebooks
Gebruik R op Databricks-notebooks voor een interactieve ontwikkelervaring die is geïntegreerd met de rest van het Databricks-platform.