Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questa pagina offre una panoramica su come usare Databricks-to-Databricks OpenSharing per condividere i dati in modo sicuro con qualsiasi utente di Databricks, indipendentemente dall'account o dall'host cloud, purché l'utente abbia accesso a un'area di lavoro abilitata per Unity Catalog.
Chi deve usare Databricks-to-Databricks OpenSharing?
Esistono tre modi per condividere i dati usando OpenSharing.
Il protocollo di condivisione Databricks-to-Databricks, descritto in questo articolo, consente di condividere i dati dall'area di lavoro dotata di Unity Catalog con gli utenti che hanno anche accesso a un'area di lavoro Databricks dotata di Unity Catalog.
Questo approccio usa il server OpenSharing integrato in Azure Databricks e fornisce il supporto per la condivisione dei notebook, la governance dei dati di Unity Catalog, il controllo e il rilevamento dell'utilizzo per provider e destinatari. L'integrazione con Unity Catalog semplifica la configurazione e la governance sia per i provider che per i destinatari e migliora le prestazioni.
Il protocollo di condivisione da Databricks a Open consente di condividere i dati gestiti in un'area di lavoro databricks abilitata per Unity Catalog con gli utenti in qualsiasi piattaforma di elaborazione.
Vedi Che cos'è il protocollo di condivisione OpenSharing da Databricks a Open Sharing?.
Un'implementazione gestita dal cliente del server OpenSharing open source consente di condividere da qualsiasi piattaforma a qualsiasi piattaforma, indipendentemente dal fatto che Databricks o meno.
Vedere il progetto open source.
Per un'introduzione a OpenSharing e altre informazioni su questi tre approcci, vedere Informazioni su OpenSharing.For an introduction to OpenSharing and more information about these three approaches, see What is OpenSharing?.
Flusso di lavoro Da Databricks a Databricks OpenSharing
Questa sezione offre una panoramica generale del flusso di lavoro di condivisione da Databricks a Databricks, con collegamenti alla documentazione dettagliata per ogni passaggio.
Nel modello Databricks-to-Databricks OpenSharing:
Un destinatario di dati fornisce a un provider di dati l'identificatore di condivisione univoco per il metastore di Databricks Unity Catalog collegato all'area di lavoro di Databricks che il destinatario (che rappresenta un utente o un gruppo di utenti) userà per accedere ai dati condivisi dal provider di dati.
Per informazioni dettagliate, vedere Passaggio 1: Richiedere l'identificatore di condivisione del destinatario.
Il provider di dati crea una condivisione nel metastore del catalogo Unity del provider. Questo oggetto rinominato contiene una raccolta di tabelle, viste, volumi e notebook registrati nel metastore.
Per informazioni dettagliate, vedere Creare condivisioni per OpenSharing.
Il provider di dati crea un oggetto destinatario nel metastore del catalogo Unity del provider. Questo oggetto denominato rappresenta l'utente o il gruppo di utenti che accederanno ai dati inclusi nella condivisione, insieme all'identificatore di condivisione del metastore del catalogo Unity collegato all'area di lavoro che verrà usata dall'utente o dal gruppo di utenti per accedere alla condivisione. L'identificatore di condivisione è l'identificatore di chiave che abilita la connessione sicura.
Per informazioni dettagliate, vedere Passaggio 2: Creare il destinatario.
Il provider di dati concede al destinatario l'accesso alla condivisione.
Per informazioni dettagliate, vedere Gestire l'accesso alle condivisioni dati OpenSharing (per i provider).
La condivisione diventa disponibile nell'area di lavoro databricks del destinatario e i destinatari possono accedervi tramite Esplora cataloghi, l'interfaccia della riga di comando di Databricks o i comandi SQL in un notebook Azure Databricks o nell'editor di query SQL di Databricks.
Per accedere a tabelle, viste, volumi e notebook in una condivisione, un amministratore del metastore o un utente privilegiato deve creare un catalogo dalla condivisione. L'utente o un altro utente a cui viene concesso il privilegio appropriato può quindi concedere ad altri utenti l'accesso al catalogo e agli oggetti nel catalogo. La concessione di autorizzazioni per cataloghi condivisi e asset di dati funziona esattamente come con qualsiasi altro asset registrato in Unity Catalog, con la differenza importante che gli utenti possono essere concessi solo l'accesso in lettura agli oggetti nei cataloghi creati da condivisioni OpenSharing.
I notebook condivisi risiedono al livello del catalogo e qualsiasi utente con il privilegio
USE CATALOGsul catalogo può accedervi.Per informazioni dettagliate, vedere Leggere i dati condivisi con Databricks-to-Databricks OpenSharing (per i destinatari).
Migliorare le prestazioni di lettura delle tabelle con la condivisione della cronologia
Le condivisioni di tabelle da Databricks a Databricks possono migliorare le prestazioni abilitando la condivisione della cronologia. La cronologia condivisa migliora le prestazioni utilizzando credenziali di sicurezza temporanee provenienti dall'archiviazione cloud, limitate fino alla directory radice della tabella Delta condivisa del provider, con prestazioni paragonabili all'accesso diretto alle tabelle di origine.
- Per le nuove condivisioni di tabella, specificare
WITH HISTORYdurante la creazione della condivisione di tabella. Vedere Aggiungere tabelle a una condivisione. Quando si condivide una tabella usando il calcolo in Databricks Runtime 16.2 e versioni successive,WITH HISTORYè l'impostazione predefinita. - Per le condivisioni di tabella esistenti, è necessario modificare la condivisione in modo da condividere la cronologia delle tabelle. Visualizza aggiorna le condivisioni. Quando si condivide una tabella usando il calcolo in Databricks Runtime 16.2 e versioni successive,
WITH HISTORYè l'impostazione predefinita.
Quando si condivide un intero schema, tutte le tabelle nello schema vengono condivise con la cronologia per impostazione predefinita.
Annotazioni
Le tabelle con partizionamento abilitato non ricevono i vantaggi delle prestazioni della condivisione della cronologia. Vedere Specificare partizioni di tabella da condividere
Per i requisiti di idoneità dei token cloud e le considerazioni sulla privacy dei dati, vedere Idoneità dei token cloud.
Matrice di supporto da Databricks a Databricks OpenSharing per gli ambienti cloud
Databricks-to-Databricks OpenSharing supporta la condivisione nello stesso tipo di ambiente. I cloud commerciali includono aree di lavoro con controlli di conformità abilitati, ad esempio FedRAMP Moderate. La condivisione con gli ambienti Azure per enti pubblici non è supportata.
Important
La condivisione tra domini normativi è in anteprima pubblica controllata. Per iniziare, contattate il team del vostro account Databricks.
In questa matrice ogni riga rappresenta l'ambiente del provider (i dati di condivisione del metastore) e ogni colonna rappresenta l'ambiente del destinatario (il metastore che riceve dati condivisi).
| Provider | Destinatario: nuvole commerciali | Destinatario: AWS GovCloud | Destinatario: AWS GovCloud DoD | Destinatario: Azure Cina |
|---|---|---|---|---|
| Servizi cloud commerciali | ✓ | ✓ | ✓ | ✓ |
| AWS GovCloud | ✓ | ✓ | ✓ | |
| AWS GovCloud DoD | ✓ | ✓ | ✓ | |
| Azure China | ✓ | ✓ |
Limitations
Le limitazioni seguenti si applicano alla condivisione tra domini normativi:
-
I token del cloud vengono utilizzati a meno che una condivisione non entri o esca da AWS GovCloud o AWS GovCloud DoD. In questi casi, invece, le tabelle vengono condivise usando URL prefirmati:
- Un cloud commerciale condivide o riceve condivisioni da AWS GovCloud o AWS GovCloud DoD.
- AWS GovCloud e AWS GovCloud DoD condividono tra loro.