Wat is het OpenSharing Databricks-to-Databricks-protocol?

Deze pagina geeft een overzicht van het gebruik van Databricks-to-Databricks OpenSharing om gegevens veilig te delen met elke Databricks-gebruiker, ongeacht het account of de cloudhost, zolang die gebruiker toegang heeft tot een werkruimte die is ingeschakeld voor Unity Catalog.

Wie moet Databricks-to-Databricks OpenSharing gebruiken?

Er zijn drie manieren om gegevens te delen met behulp van OpenSharing.

  1. Met het Databricks-naar-Databricks-protocol voor delen, dat in dit artikel wordt besproken, kunt u gegevens delen vanuit uw werkruimte met Unity Catalog-functionaliteit met gebruikers die ook toegang hebben tot een Databricks-werkruimte met Unity Catalog.

    Deze benadering maakt gebruik van de OpenSharing-server die is ingebouwd in Azure Databricks en biedt ondersteuning voor het delen van notitieblokken, gegevensbeheer, controle en gebruikstracking voor zowel providers als ontvangers. De integratie met Unity Catalog vereenvoudigt het instellen en beheren voor zowel providers als ontvangers en verbetert de prestaties.

  2. Met het Databricks-to-Open-protocol voor delen kunt u gegevens delen die u beheert in een Databricks-werkruimte met Unity Catalog met gebruikers op elk computerplatform.

    Zie Wat is het OpenSharing Databricks-to-Open-sharing-protocol?

  3. Met een door de klant beheerde implementatie van de open-source OpenSharing-server kunt u vanaf elk platform naar elk platform delen, ongeacht of het om Databricks gaat of niet.

    Zie het open source project.

Zie Wat is OpenSharing?voor een inleiding tot OpenSharing en meer informatie over deze drie benaderingen.

Databricks-to-Databricks OpenSharing-werkstroom

Deze sectie biedt een overzicht van de Databricks-naar-Databricks-workflow voor delen, met koppelingen naar gedetailleerde documentatie voor elke stap.

In het Databricks-to-Databricks OpenSharing-model:

  1. Een gegevensontvanger geeft een gegevensproviderde unieke id voor delen voor de Databricks Unity Catalog-metastore die is gekoppeld aan de Databricks-werkruimte die de ontvanger (die een gebruiker of groep gebruikers vertegenwoordigt) zal gebruiken voor toegang tot de gegevens die de gegevensprovider deelt.

    Zie voor meer informatie Stap 1: Vraag om de gedeelde ID van de geadresseerde.

  2. De gegevensprovider maakt een share in de Unity Catalog-metastore van de provider. Dit benoemde object bevat een verzameling tabellen, weergaven, volumes en notebooks die zijn geregistreerd in de metastore.

    Zie Shares maken voor OpenSharing voor meer informatie.

  3. De gegevensprovider maakt een ontvangerobject in de Unity Catalog-metastore van de provider. Dit benoemde object vertegenwoordigt de gebruiker of groep gebruikers die toegang hebben tot de gegevens die zijn opgenomen in de share, samen met de deel-id van de Unity Catalog-metastore die is gekoppeld aan de werkruimte die de gebruiker of groep gebruikers zal gebruiken voor toegang tot de share. De id voor delen is de sleutel-id die de beveiligde verbinding mogelijk maakt.

    Zie stap 2 voor meer informatie: De ontvanger maken.

  4. De gegevensprovider verleent de ontvanger toegang tot de share.

    Zie Toegang tot OpenSharing-datashares beheren (voor aanbieders) voor meer informatie.

  5. De share wordt beschikbaar in de Databricks-werkruimte van de ontvanger en ontvangers hebben er toegang toe via Catalog Explorer, de Databricks CLI of SQL-opdrachten in een Azure Databricks notebook of de Databricks SQL-queryeditor.

    Als u toegang wilt krijgen tot de tabellen, weergaven, volumes en notebooks in een share, moet een metastore-beheerder of bevoegde gebruiker een catalogus maken op basis van de share. Vervolgens kan die gebruiker of een andere gebruiker die de juiste bevoegdheid krijgt, andere gebruikers toegang geven tot de catalogus en objecten in de catalogus. Het verlenen van machtigingen voor gedeelde catalogi en gegevensassets werkt net zoals bij andere assets die zijn geregistreerd in Unity Catalog, waarbij het belangrijk is dat gebruikers alleen leestoegang kunnen krijgen voor objecten in catalogi die zijn gemaakt op basis van OpenSharing-shares.

    Gedeelde notitieblokken zijn live op catalogusniveau en elke gebruiker met de USE CATALOG bevoegdheid in de catalogus heeft toegang tot deze notitieblokken.

    Zie Gegevens lezen die worden gedeeld met Databricks-to-Databricks OpenSharing (voor ontvangers) voor meer informatie.

Leesprestaties van tabellen verbeteren met het delen van geschiedenis

Databricks-to-Databricks-tabelshares kunnen de prestaties verbeteren door het delen van geschiedenis in te schakelen. Het delen van geschiedenis verbetert de prestaties door gebruik te maken van tijdelijke beveiligingscredentials van uw cloudopslag, beperkt tot de hoofdmap van de door de provider gedeelde Delta-tabel, wat resulteert in prestaties die vergelijkbaar zijn met directe toegang tot brontabellen.

  • Geef voor nieuwe tabelshares WITH HISTORY op bij het maken van de tabelshare. Zie Tabellen toevoegen aan een share. Wanneer u een tabel deelt met behulp van rekenkracht op Databricks Runtime 16.2 en hoger, is WITH HISTORY de standaardinstelling.
  • Voor bestaande gedeelde tabellen moet u de gedeelde tabel aanpassen om de tabelgeschiedenis te delen. Zie Shares bijwerken. Wanneer u een tabel deelt met behulp van rekenkracht op Databricks Runtime 16.2 en hoger, is WITH HISTORY de standaardinstelling.

Wanneer u een volledig schema deelt, worden alle tabellen in het schema standaard gedeeld met de geschiedenis.

Note

Tabellen waarvoor partitionering is ingeschakeld, ontvangen niet de prestatievoordelen van het delen van geschiedenis. Zie Tabelpartities opgeven om te delen

Raadpleeg de Geschiktheid voor cloudtokens voor vereisten voor geschiktheid voor cloudtokens en overwegingen voor gegevensprivacy.

Ondersteuningsmatrix voor Databricks-to-Databricks OpenSharing voor cloudomgevingen

Databricks-to-Databricks OpenSharing biedt ondersteuning voor delen binnen hetzelfde omgevingstype. Commerciële clouds bevatten werkruimten waarvoor nalevingscontroles zijn ingeschakeld, zoals FedRAMP Moderate. Delen met Azure Government omgevingen wordt niet ondersteund.

Important

Delen tussen regelgevingsdomeinen is beschikbaar in beperkte Public Preview. Neem contact op met uw Databricks-accountteam om aan de slag te gaan.

In deze matrix vertegenwoordigt elke rij de provideromgeving (de metagegevens voor het delen van metastores) en elke kolom vertegenwoordigt de ontvangeromgeving (de metastore die gedeelde gegevens ontvangt).

Aanbieder Ontvanger: Commerciële cloudsystemen Ontvanger: AWS GovCloud Ontvanger: AWS GovCloud DoD Ontvanger: Azure China
Commerciële clouds
AWS GovCloud
AWS GovCloud DoD
Azure China

Limitations

De volgende beperkingen gelden voor het delen van meerdere regelgevingsdomeinen:

  • Cloud-tokens worden gebruikt, tenzij een share naar of uit AWS GovCloud of AWS GovCloud DoD gaat. In deze volgende gevallen worden tabellen gedeeld met behulp van vooraf ondertekende URL's:
    • Een commerciële cloud deelt gedeelde resources met of ontvangt gedeelde resources van ofwel AWS GovCloud of AWS GovCloud DoD.
    • AWS GovCloud en AWS GovCloud DoD delen met elkaar.