Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page fournit une vue d’ensemble de l’utilisation de Databricks-to-Databricks OpenSharing pour partager des données en toute sécurité avec n’importe quel utilisateur Databricks, quel que soit le compte ou l’hôte cloud, tant que cet utilisateur a accès à un espace de travail activé pour Unity Catalog.
Qui doit utiliser Databricks-to-Databricks OpenSharing ?
Il existe trois façons de partager des données à l’aide d’OpenSharing.
Le protocole de partage Databricks-to-Databricks, abordé dans cet article, vous permet de partager des données à partir de votre espace de travail compatible Unity Catalog avec des utilisateurs qui ont également accès à un espace de travail Databricks compatible Unity Catalog.
Cette approche utilise le serveur OpenSharing intégré à Azure Databricks et fournit la prise en charge du partage de notebooks, de la gouvernance des données du catalogue Unity, de l’audit et du suivi de l’utilisation pour les fournisseurs et les destinataires. L’intégration à Unity Catalog simplifie la configuration et la gouvernance pour les fournisseurs et les destinataires, et améliore les performances.
Le protocole de partage Databricks-to-Open vous permet de partager des données que vous gérez dans un espace de travail Databricks compatible avec le catalogue Unity avec des utilisateurs sur n’importe quelle plateforme informatique.
Voir Qu’est-ce que le protocole de partage OpenSharing Databricks-to-Open ?.
Une implémentation gérée par le client du serveur OpenSharing open source vous permet de partager à partir de n’importe quelle plateforme, qu’il s’agisse de Databricks ou non.
Consultez le projet open source.
Pour une présentation d’OpenSharing et plus d’informations sur ces trois approches, consultez Qu’est-ce qu’OpenSharing ?.
Flux de travail OpenSharing de Databricks à Databricks
Cette section offre une vue d’ensemble du workflow de partage Databricks-to-Databricks, et fournit des liens vers une documentation détaillée de chaque étape.
Dans le modèle Databricks-to-Databricks OpenSharing :
Un destinataire de données passe à un fournisseur de données l’identificateur de partage unique pour le metastore Databricks Unity Catalog qui est attaché à l’espace de travail Databricks que le destinataire (représentant un utilisateur ou un groupe d’utilisateurs) utilisera pour accéder aux données partagées par le fournisseur de données.
Pour plus d’informations, consultez l’étape 1 : Demander l’identificateur de partage du destinataire.
Le fournisseur de données crée un partage dans le metastore Unity Catalog du fournisseur. Cet objet nommé contient une collection de tables, de vues, de volumes et de notebooks enregistrés dans le metastore.
Pour plus d’informations, consultez Créer des partages pour OpenSharing.
Le fournisseur de données crée un objet destinataire dans le metastore Unity Catalog du fournisseur. Cet objet nommé représente l’utilisateur ou le groupe d’utilisateurs devant accéder aux données incluses dans le partage, ainsi que l’identificateur de partage du metastore Unity Catalog qui est attaché à l’espace de travail qui sera utilisé par l’utilisateur ou le groupe d’utilisateurs pour accéder au partage. L’identificateur de partage est l’identificateur de clé qui active la connexion sécurisée.
Pour plus d’informations, consultez Étape 2 : Créer le destinataire.
Le fournisseur de données accorde au destinataire l’accès au partage.
Pour plus d’informations, consultez Gérer l’accès aux partages de données OpenSharing (pour les fournisseurs).
Le partage devient disponible dans l'espace de travail Databricks du destinataire, et les destinataires peuvent y accéder à l'aide de l'Explorateur de catalogues, de l'interface CLI Databricks ou des commandes SQL dans un notebook Azure Databricks ou l'éditeur de requête Databricks SQL.
Pour accéder aux tables, vues, volumes et notebooks d'un partage, un administrateur de métastore ou un utilisateur privilégié doit créer un catalogue à partir de celui-ci. Ensuite, cet utilisateur ou un autre utilisateur disposant du privilège approprié peut donner à d’autres utilisateurs l’accès au catalogue et aux objets du catalogue. L’octroi d’autorisations sur les catalogues partagés et les ressources de données fonctionne comme avec toutes les autres ressources inscrites dans le catalogue Unity, avec la distinction importante étant que les utilisateurs peuvent bénéficier uniquement d’un accès en lecture sur les objets dans les catalogues créés à partir de partages OpenSharing.
Les notebooks partagés se trouvent au niveau du catalogue, et tout utilisateur disposant du privilège
USE CATALOGsur le catalogue peut y accéder.Pour plus d’informations, consultez Lire les données partagées à l’aide de Databricks-to-Databricks OpenSharing (pour les destinataires).
Améliorer les performances de lecture des tables avec le partage d’historique
Les partages de tables de Databricks à Databricks peuvent améliorer les performances grâce à l'activation du partage d’historique. L’historique de partage améliore les performances en tirant parti des informations d’identification de sécurité temporaires de votre stockage cloud, délimitées au répertoire racine de la table Delta partagée du fournisseur, ce qui entraîne des performances comparables à l’accès direct aux tables sources.
- Pour les nouveaux partages de tables, spécifiez
WITH HISTORYlors de la création du partage de table. Consultez Ajouter des tables à un partage. Lorsque vous partagez une table à l’aide du calcul sur Databricks Runtime 16.2 et versions ultérieures,WITH HISTORYest la valeur par défaut. - Pour les partages de tables existants, vous devez modifier le partage pour partager l’historique des tables. Consultez la mise à jour des partages. Lorsque vous partagez une table à l’aide du calcul sur Databricks Runtime 16.2 et versions ultérieures,
WITH HISTORYest la valeur par défaut.
Lorsque vous partagez un schéma entier, toutes les tables du schéma sont partagées par défaut avec l’historique.
Note
Les tables avec partitionnement activé ne reçoivent pas les avantages de performances du partage d’historique. Voir Spécifier des partitions de table à partager
Pour connaître les exigences d’éligibilité des jetons cloud et les considérations relatives à la confidentialité des données, consultez l’éligibilité des jetons cloud.
Matrice de prise en charge d’OpenSharing entre Databricks et Databricks pour les environnements cloud
Databricks-to-Databricks OpenSharing prend en charge le partage dans le même type d’environnement. Les clouds commerciaux incluent des espaces de travail avec des contrôles de conformité activés, tels que FedRAMP Moderate. Le partage avec des environnements Azure Government n’est pas pris en charge.
Important
Le partage entre les domaines réglementaires est en préversion publique avec accès limité. Pour commencer, contactez votre équipe de compte Databricks.
Dans cette matrice, chaque ligne représente l’environnement fournisseur (les données de partage de metastore) et chaque colonne représente l’environnement du destinataire (le metastore recevant des données partagées).
| Fournisseur | Destinataire : Cloud commercial | Destinataire : AWS GovCloud | Destinataire : AWS GovCloud DoD | Destinataire : Azure Chine |
|---|---|---|---|---|
| Solutions cloud d'entreprise | ✓ | ✓ | ✓ | ✓ |
| AWS GovCloud | ✓ | ✓ | ✓ | |
| AWS GovCloud DoD | ✓ | ✓ | ✓ | |
| Azure China | ✓ | ✓ |
Limitations
Les limitations suivantes s’appliquent au partage entre domaines réglementaires :
-
Les jetons Cloud sont utilisés, sauf lorsqu’un partage entre dans AWS GovCloud ou AWS GovCloud DoD, ou en sort. Dans ces cas, les tables sont partagées à l’aide d’URL pré-signées à la place :
- Un cloud commercial partage avec AWS GovCloud ou AWS GovCloud DoD, ou reçoit des partages depuis AWS GovCloud ou AWS GovCloud DoD.
- AWS GovCloud et AWS GovCloud DoD partagent entre eux.