Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page présente OpenSharing dans Azure Databricks, la plateforme de partage de données sécurisée qui vous permet de partager des données et des ressources IA dans Azure Databricks avec des utilisateurs externes à votre organisation, qu’ils utilisent Azure Databricks. OpenSharing est également la base de Databricks Marketplace, un forum ouvert pour échanger des produits de données et des salles propres, un environnement sécurisé et de protection de la confidentialité où plusieurs parties peuvent travailler ensemble sur des données d’entreprise sensibles.
OpenSharing est également disponible en tant que projet open source que vous pouvez utiliser pour partager des tables Delta à partir d’autres plateformes.
Comment Fonctionne OpenSharing ?
OpenSharing est un protocole ouvert développé par Databricks pour le partage de données sécurisé avec d’autres organisations. Elle fonctionne indépendamment des plateformes informatiques utilisées par ces organisations.
Il existe plusieurs façons de partager des données à l’aide d’OpenSharing :
Le protocole de partage Databricks-to-Databricks, qui vous permet de partager des données et des ressources IA à partir de votre espace de travail Unity Catalog avec des utilisateurs qui ont également accès à un espace de travail Databricks compatible avec Unity Catalog.
Cette approche utilise le serveur OpenSharing intégré à Azure Databricks. Il prend en charge certaines fonctionnalités OpenSharing qui ne sont pas prises en charge dans les autres protocoles, notamment le partage de notebooks, le partage de volumes Unity Catalog, le partage de modèles Unity Catalog AI, la gouvernance des données Unity Catalog, l’audit et le suivi de l’utilisation pour les fournisseurs et les destinataires. L’intégration à Unity Catalog simplifie la configuration et la gouvernance pour les fournisseurs et les destinataires, et améliore les performances.
Voir qu’est-ce que le protocole OpenSharing Databricks-to-Databricks ?.
Le protocole de partage Databricks-to-Open, qui vous permet de partager des données tabulaires que vous gérez dans un espace de travail Databricks compatible avec le catalogue Unity avec des utilisateurs sur n’importe quelle plateforme informatique.
Cette approche utilise le serveur OpenSharing intégré à Azure Databricks et est utile lorsque vous gérez des données à l'aide de Unity Catalog et souhaitez le partager avec des utilisateurs qui n'utilisent pas Databricks ou qui n'ont pas accès à un espace de travail Databricks compatible avec le catalogue Unity. L’intégration à Unity Catalog côté fournisseur simplifie la configuration et la gouvernance pour les fournisseurs.
Voir Qu’est-ce que le protocole de partage OpenSharing Databricks-to-Open ?.
Implémentation gérée par le client du serveur OpenSharing open source, qui vous permet de partager à partir de n’importe quelle plateforme vers n’importe quelle plateforme, que Databricks ou non.
La documentation Azure Databricks ne couvre pas les instructions de configuration de votre propre serveur OpenSharing. Consultez le projet open source.
The SAP Business Data Cloud (BDC) Connector for Azure Databricks, qui vous permet de partager des données entre votre espace de travail avec catalogue Unity et un compte SAP BDC.
Cette approche utilise le connecteur SAP BDC, qui utilise OpenSharing pour un accès direct et sans copie aux produits de données SAP BDC.
Consultez Qu’est-ce que le connecteur SAP BDC pour Azure Databricks ?.
Partages, fournisseurs et destinataires
Les principaux concepts sous-jacents d’OpenSharing dans Azure Databricks sont des partages, des fournisseurs et des destinataires.
Qu’est-ce qu’un partage ?
Dans OpenSharing, un partage est une collection en lecture seule de tables et de partitions de tables qu’un fournisseur souhaite partager avec un ou plusieurs destinataires. Si votre destinataire utilise un espace de travail Databricks compatible avec le catalogue Unity, vous pouvez également inclure des fichiers de notebook, des vues (y compris des vues dynamiques qui limitent l’accès au niveau de la ligne et de la colonne), des volumes catalogue Unity et des modèles catalogue Unity dans un partage.
Vous pouvez ajouter ou supprimer des tables, des tables de streaming, des tables Iceberg managées, des vues, des vues matérialisées, des volumes, des modèles et des fichiers de notebook à partir d’un partage à tout moment, et vous pouvez affecter ou révoquer l’accès du destinataire des données à un partage à tout moment.
Dans un espace de travail Azure Databricks compatible avec Unity Catalog, un partage est un objet sécurisable inscrit dans unity Catalog. Si vous supprimez un partage dans votre metastore Unity Catalog, tous les destinataires de ce partage perdent leur accès.
Consultez Créer des partages pour OpenSharing.
Qu'est-ce qu'un fournisseur ?
Un fournisseur est une entité qui partage des données avec un destinataire. Si vous êtes un fournisseur et que vous souhaitez tirer parti du serveur Databricks OpenSharing intégré et gérer des partages et des destinataires à l’aide du catalogue Unity, vous avez besoin d’au moins un espace de travail Azure Databricks activé pour le catalogue Unity. Vous n’avez pas besoin de migrer tous vos espaces de travail existants vers le catalogue Unity. Vous pouvez simplement créer un espace de travail avec catalogue Unity pour vos besoins OpenSharing.
Si un destinataire se trouve sur un espace de travail Databricks compatible avec le catalogue Unity, le fournisseur est également un objet sécurisable Unity Catalog qui représente l’organisation du fournisseur et associe cette organisation à un ensemble de partages.
Qu’est-ce qu’un destinataire ?
Un destinataire est une entité qui reçoit des parts d’un fournisseur. Dans Le catalogue Unity, un partage est un objet sécurisable qui représente une organisation et l’associe à un identificateur d’informations d’identification ou de partage sécurisé qui permet à cette organisation d’accéder à un ou plusieurs partages.
En tant que fournisseur de données (« sharer »), vous pouvez définir plusieurs destinataires pour un metastore Unity Catalog donné. Toutefois, si vous souhaitez partager les données de plusieurs metastores avec un utilisateur ou un groupe d’utilisateurs spécifique, vous devez définir le destinataire séparément pour chaque metastore. Un destinataire peut avoir accès à plusieurs partages.
Si un fournisseur supprime un destinataire de son metastore Unity Catalog, ce destinataire perd l’accès à tous les partages qu’il peut accéder précédemment.
Consultez Créer des destinataires de données pour OpenSharing (partage Databricks-to-Databricks).
Partage Databricks-to-Open par rapport au partage Databricks-to-Databricks
Cette section décrit les deux protocoles pour le partage à partir d’un espace de travail Databricks activé pour Unity Catalog.
Note
Cette section suppose que le fournisseur se trouve sur un espace de travail Azure Databricks compatible avec Unity Catalog. Pour en savoir plus sur la configuration d’un serveur OpenSharing open source à partager à partir d’une plateforme non Databricks ou d’un espace de travail catalogue non Unity, consultez le projet open source.
La façon dont un fournisseur utilise OpenSharing dans Azure Databricks dépend de qui ils partagent des données avec :
- Le partage ouvert vous permet de partager des données avec n’importe quel utilisateur, qu’ils aient ou non accès à Azure Databricks.
- Databricks-to-Databricks sharing vous permet de partager des données avec des utilisateurs Azure Databricks dont l’espace de travail est attaché à un metastore Unity Catalog différent du vôtre. Databricks-to-Databricks prend également en charge le partage de notebooks, de volumes et de modèles, ce qui n’est pas possible avec le partage Databricks-to-Open.
Qu’est-ce qu’OpenSharing ?
Si vous souhaitez partager des données avec des utilisateurs extérieurs à votre espace de travail Azure Databricks, qu’ils utilisent ou non Databricks, vous pouvez utiliser Open Sharing pour partager vos données en toute sécurité. En tant que fournisseur de données, vous gérez l’authentification avec le destinataire de partage à l’aide de l’une des méthodes suivantes :
- Vous générez un jeton du porteur de longue durée et le partagez en toute sécurité avec le destinataire. Ils utilisent le jeton pour authentifier et obtenir l’accès en lecture aux tables que vous avez incluses dans les partages auxquels vous leur avez accordé l’accès.
- Vous utilisez la fédération Open ID Connect (OIDC), en accordant des jetons Databricks OAuth de courte durée au destinataire en échange de jetons JWT transmis par le fournisseur d’identité du destinataire à Databricks.
Les destinataires peuvent accéder aux données partagées à l’aide de nombreux outils et plateformes informatiques, notamment :
- Azure Databricks
- Apache Spark
- Pandas
- Power BI
Pour obtenir la liste complète des connecteurs OpenSharing et des informations sur leur utilisation, consultez la documentation OpenSharing .
Consultez également Qu’est-ce que le protocole de partage OpenSharing Databricks-to-Open ?.
Qu’est-ce que Databricks-to-Databricks OpenSharing ?
Si vous souhaitez partager des données avec des utilisateurs disposant d’un espace de travail Databricks activé pour Unity Catalog, vous pouvez utiliser Databricks-to-Databricks OpenSharing. Le partage Databricks-to-Databricks vous permet de partager des données avec des utilisateurs dans d'autres comptes Databricks, qu'ils soient sur AWS, Azure ou GCP. Il s’agit également d’un excellent moyen de partager en toute sécurité des données entre différents metastores du catalogue Unity dans votre propre compte Databricks. Notez qu’il n’est pas nécessaire d’utiliser OpenSharing pour partager des données entre des espaces de travail attachés au même metastore Du catalogue Unity, car dans ce scénario, vous pouvez utiliser Unity Catalog lui-même pour gérer l’accès aux données entre les espaces de travail.
L’un des avantages du partage Databricks à Databricks est que le destinataire du partage n’a pas besoin d’un jeton pour accéder au partage et que le fournisseur n’a pas besoin de gérer les jetons de destinataire. La sécurité de la connexion de partage, y compris la vérification d’identité, l’authentification et l’audit, est entièrement gérée via OpenSharing et la plateforme Databricks. Un autre avantage est la possibilité de partager des fichiers de notebook Databricks, des volumes Unity Catalog et des modèles Unity Catalog.
Consultez également Qu’est-ce que le protocole OpenSharing Databricks-to-Databricks ?.
Comment les administrateurs du fournisseur configurent-ils OpenSharing ?
Cette section fournit une vue d’ensemble de la façon dont les fournisseurs peuvent activer OpenSharing et lancer le partage à partir d’un espace de travail Azure Databricks compatible avec le catalogue Unity. Pour l’open source OpenSharing, consultez le projet open source.
Le partage Databricks à Databricks entre différents metastores Unity Catalog du même compte est toujours activé. Si vous êtes un fournisseur qui souhaite autoriser OpenSharing à partager des données avec des espaces de travail Databricks dans d’autres comptes ou clients non Databricks, un administrateur de compte Azure Databricks ou un administrateur de metastore effectue les étapes de configuration suivantes (à un niveau élevé) :
Activez OpenSharing pour le metastore Du catalogue Unity qui gère les données que vous souhaitez partager.
Note
Vous n’avez pas besoin d’activer OpenSharing sur votre metastore si vous envisagez d’utiliser OpenSharing pour partager des données uniquement avec des utilisateurs sur d’autres metastores du catalogue Unity dans votre compte. Le partage metastore-à-metastore au sein d’un compte Azure Databricks unique est activé par défaut.
Consultez Activer OpenSharing sur un metastore.
Créez un partage qui inclut des ressources de données inscrites dans le metastore Unity Catalog.
Si vous partagez avec un destinataire non Databricks (connu sous le nom de partage Databricks-to-Open), vous pouvez inclure des tables au format Delta. Si vous envisagez d’utiliser le partage Databricks-to-Databricks, vous pouvez également ajouter des vues, des volumes Unity Catalog, des modèles Unity Catalog et des fichiers notebook à un partage.
Consultez Créer des partages pour OpenSharing.
Créez un destinataire.
Consultez Créer des destinataires de données pour OpenSharing (partage Databricks-to-Databricks).
Si votre destinataire n’est pas un utilisateur Databricks ou n’a pas accès à un espace de travail Databricks activé pour Unity Catalog, vous devez utiliser le partage Databricks-to-Open. Vous pouvez générer des informations d’identification basées sur un jeton du porteur pour ce destinataire ou utiliser la fédération OIDC.
Si votre destinataire a accès à un espace de travail Databricks activé pour Unity Catalog, vous pouvez utiliser le partage Databricks à Databricks et aucune information d’identification basée sur des jetons n’est requise. Vous demandez un identificateur de partage auprès du destinataire et l’utilisez pour établir la connexion sécurisée.
Conseil / Astuce
Testez le processus d’installation en vous désignant vous-même comme destinataire de test.
Permettre l’accès à un ou plusieurs partages au destinataire.
Consultez Gérer l’accès aux partages de données OpenSharing (pour les fournisseurs).
Note
Cette étape peut également être effectuée par un utilisateur non-administrateur avec les privilèges
USE SHAREetUSE RECIPIENTSET SHARE PERMISSION. Consultez les informations de référence sur les privilèges du catalogue Unity.Envoyez au destinataire les informations dont ils ont besoin pour se connecter au partage (partage Databricks à Ouvrir uniquement).
Pour le partage Databricks-to-Open à l’aide de jetons du porteur, utilisez un canal sécurisé pour envoyer au destinataire un lien d’activation qui leur permet de télécharger leurs informations d’identification basées sur les jetons. Consultez Envoyer au destinataire ses informations de connexion.
Pour le partage Databricks-to-Open à l’aide de la fédération de jetons OIDC, envoyez l’URL du portail générée. Consultez Activer la fédération Open ID Connect (OIDC) pour les destinataires OpenSharing.
Pour le partage Databricks à Databricks, les données incluses dans le partage sont disponibles dans l’espace de travail Databricks du destinataire dès que vous leur accordez l’accès au partage.
Le destinataire a désormais accès aux données partagées.
Comment les destinataires accèdent-ils aux données partagées ?
Les destinataires accèdent aux ressources de données partagées au format en lecture seule. Les fichiers de notebook partagés sont en lecture seule, mais ils peuvent être clonés, puis modifiés et exécutés dans l’espace de travail du destinataire comme n’importe quel autre notebook.
L’accès sécurisé dépend du modèle de partage :
Le partage Databricks-to-Open (le destinataire n’a pas d’espace de travail Databricks activé pour le catalogue Unity) a deux options :
- Dans un flux de jeton porteur, le destinataire fournit les identifiants chaque fois qu'il accède aux données dans l'outil de son choix, y compris Apache Spark, pandas, Power BI, Databricks, et bien d'autres. Consultez Lecture des données partagées à l’aide du partage ouvert de Databricks vers le partage ouvert avec des jetons de porteur.
- Dans le flux de fédération de jetons OIDC, le destinataire ou l’application cliente du destinataire accède aux données à l’aide de son propre fournisseur d’identité (IdP). Consultez Lire les données partagées à l’aide de la fédération Open ID Connect (OIDC) dans un flux U2M et lire les données partagées à l’aide de la fédération Open ID Connect (OIDC) dans un flux M2M.
Databricks-to-Databricks (l'espace de travail du destinataire est activé pour Unity Catalog) : le destinataire accède aux données à l'aide de Databricks. Ils peuvent utiliser le catalogue Unity pour accorder et refuser l’accès à d’autres utilisateurs dans leur compte Databricks. Consultez Lire les données partagées via Databricks-to-Databricks OpenSharing (pour les destinataires).
Chaque fois que le fournisseur de données met à jour des tables de données ou des volumes dans son propre compte Databricks, les mises à jour s’affichent en quasi temps réel dans le système du destinataire. Pour savoir comment accéder aux données qui ont été partagées avec vous à l’aide d’OpenSharing, consultez Accéder aux données partagées avec vous à l’aide d’OpenSharing (pour les destinataires).
Comment effectuer le suivi des personnes qui partagent les données partagées et y accèdent ?
Les fournisseurs de données sur les espaces de travail Azure Databricks compatibles avec Unity Catalog peuvent utiliser la journalisation et les tables système d’audit Azure Databricks pour surveiller la création et la modification des partages et des destinataires, et peuvent surveiller l’activité des destinataires sur les partages. Consultez Auditer et surveiller le partage de données.
Les destinataires de données qui utilisent des données partagées dans un espace de travail Databricks peuvent utiliser la journalisation d’audit Databricks et les tables système pour comprendre qui accède aux données. Consultez Auditer et surveiller le partage de données.
Partage de volumes
Vous pouvez partager des volumes à l’aide du flux de partage Databricks-to-Databricks. Consultez Ajouter des volumes à un partage (pour les fournisseurs) et Lire des données partagées via OpenSharing Databricks-to-Databricks (pour les destinataires).
Partage de modèles
Vous pouvez partager des modèles à l’aide du flux de partage Databricks-to-Databricks. Consultez Ajouter des modèles à un partage (pour les fournisseurs) et Lire les données partagées avec Open Sharing Databricks-to-Databricks (pour les destinataires).
Partage de notebooks
Vous pouvez utiliser OpenSharing pour partager des fichiers notebook à l’aide du processus de partage Databricks-to-Databricks. Consultez Ajouter des fichiers de bloc-notes à un partage (pour les fournisseurs) et lire des blocs-notes partagés (pour les destinataires).
Restriction de l’accès au niveau des lignes et des colonnes lors du partage des vues
Vous pouvez partager des vues dynamiques qui limitent l’accès à certaines données de table en fonction des propriétés du destinataire. Consultez Ajouter des vues dynamiques à un partage pour filtrer les lignes et les colonnes.
OpenSharing et streaming
OpenSharing prend en charge Apache Spark Structured Streaming. Un fournisseur peut partager une table avec l’historique ou une table de diffusion en continu afin qu’un destinataire puisse l’utiliser comme source Structured Streaming, en traitant les données partagées de manière incrémentielle avec une faible latence. Les destinataires peuvent également effectuer des requêtes de voyage dans le temps Delta Lake sur des tables partagées avec l’historique.
Pour savoir comment partager des tables avec l’historique, consultez Ajouter des tables à un partage. Pour savoir comment utiliser des tables partagées comme sources de diffusion en continu, consultez Interroger une table à l’aide d’Apache Spark Structured Streaming (pour les destinataires du partage Databricks à Databricks) ou Accéder à une table partagée à l’aide de Spark Structured Streaming (pour les destinataires des données de partage Databricks-to-Open).
Pour savoir comment partager des tables de diffusion en continu, consultez Ajouter des tables de diffusion en continu à un partage.
Consultez également les concepts de diffusion en continu structuré.
Matrice de prise en charge des fonctionnalités Delta Lake
OpenSharing prend en charge la plupart des fonctionnalités Delta Lake lorsque vous partagez une table. Cette matrice de prise en charge répertorie les éléments suivants :
- Fonctionnalités Delta qui nécessitent des versions spécifiques de Databricks Runtime, le connecteur OpenSharing Spark open source ou le connecteur open source OpenSharing Python.
- Fonctionnalités partiellement prises en charge.
| Feature | Provider | Destinataire Databricks | Destinataire de source ouverte |
|---|---|---|---|
| Vecteurs de suppression |
|
|
|
| Mappage de colonnes |
|
|
|
| Format uniforme |
|
|
|
| Point de contrôle V2 | Prise en charge avec des limitations | Prise en charge avec des limitations | Prise en charge avec des limitations |
| TimestampNTZ | Supported | Databricks Runtime 14.1+ | Connecteur OpenSharing Spark 3.3+ |
| Regroupement de liquide | Prise en charge avec des limitations | Prise en charge avec des limitations | Prise en charge avec des limitations |
Questions fréquentes (FAQ) openSharing
Les questions fréquemment posées sur OpenSharing sont les suivantes.
Ai-je besoin du catalogue Unity pour utiliser OpenSharing ?
Non, vous n’avez pas besoin de Unity Catalog pour partager (en tant que fournisseur) ou consommer des données partagées (en tant que destinataire). Toutefois, Unity Catalog offre des avantages comme la compatibilité du partage de ressources non tabulaires et AI, la gouvernance prête à l’emploi, la simplicité et les performances des requêtes.
Les fournisseurs peuvent partager des données de deux façons :
Placez les ressources à partager sous gestion du catalogue Unity et partagez-les à l’aide du serveur intégré Azure Databricks OpenSharing.
Vous n’avez pas besoin de migrer toutes les ressources vers le catalogue Unity. Il vous suffit d’un seul espace de travail Azure Databricks compatible Unity Catalog pour gérer les ressources que vous souhaitez partager. Dans certains comptes, de nouveaux espaces de travail sont activés automatiquement pour Unity Catalog. Consultez Bien démarrer avec Unity Catalog.
Implémentez le serveur de partage Databricks-to-Open pour partager des données, sans nécessairement utiliser votre compte Azure Databricks.
Les destinataires peuvent consommer des données de deux façons :
Sans espace de travail Databricks. Utilisez open source connecteurs OpenSharing disponibles pour de nombreuses plateformes de données, notamment Power BI, pandas et open source Apache Spark. Consultez Lecture des données partagées via le partage Databricks-to-Open OpenSharing avec des jetons porteurs et le projet OpenSharing open source.
Dans un espace de travail Databricks. Les espaces de travail des destinataires n’ont pas besoin d’être activés pour le catalogue Unity, mais il existe des avantages de gouvernance, de simplicité et de performances s’ils le sont.
Les organisations destinataires qui souhaitent bénéficier de ces avantages n'ont pas besoin de migrer toutes les ressources vers Unity Catalog. Vous n’avez besoin que d’un seul espace de travail Azure Databricks qui est activé pour que Unity Catalog gère les ressources partagées avec vous. Dans certains comptes, de nouveaux espaces de travail sont activés automatiquement pour Unity Catalog. Consultez Bien démarrer avec Unity Catalog.
Consultez Lire les données partagées via OpenSharing Databricks-to-Open avec des jetons Bearer et Lire les données partagées via OpenSharing Databricks-to-Databricks (pour les destinataires).
Dois-je être un client Databricks pour utiliser OpenSharing ?
Non, OpenSharing est un protocole ouvert. Vous pouvez partager des données non Databricks avec des destinataires sur n’importe quelle plateforme de données. Les fournisseurs peuvent configurer un serveur OpenSharing ouvert pour partager à partir de n’importe quelle plateforme informatique. Les destinataires peuvent consommer des données partagées à l’aide de open source connecteurs OpenSharing pour de nombreux produits de données, notamment Power BI, pandas et open source Spark.
Toutefois, l’utilisation d’OpenSharing sur Azure Databricks, en particulier le partage à partir d’un espace de travail avec catalogue Unity, présente de nombreux avantages.
Consultez la première question de cette FAQ pour en savoir plus.
Comment puis-je effectuer et vérifier les coûts d’OpenSharing ?
Le coût d’OpenSharing est engagé lors du partage et de l’accès aux vues, aux vues matérialisées et aux tables de streaming. Voici les sources potentielles de coût pour le partage :
- Coût de calcul, facturé par Azure Databricks.
- Coût de stockage et de transfert réseau (sortie), facturé par le fournisseur de stockage ou par Azure Databricks si le fournisseur utilise SecureConnect.
- Coût source de calcul étranger, lors du partage de schémas et de tables étrangers.
La méthode par laquelle le calcul est effectué et qui paie pour elle dépend de plusieurs facteurs :
- Type de capacité de calcul du destinataire
- Que le partage se produise dans le même compte Azure Databricks ou entre les comptes
Le tableau suivant décrit la méthode de facturation pour le partage et l’accès aux vues à l’aide d’OpenSharing :
| Calcul du destinataire | Relation de compte | Qui paie | Référence SKU utilisée pour la facturation | Méthode d'accès |
|---|---|---|---|---|
| Databricks Serverless | N'importe lequel | Recipient* | Serverless du destinataire | Le destinataire reçoit un accès direct aux données sous-jacentes |
| Databricks Classique | Même compte | Recipient* | Classique du récipiendaire | Le destinataire reçoit un accès direct aux données sous-jacentes |
| Databricks Classique | Autre compte | Recipient | Serverless interactif du fournisseur | Le fournisseur effectue le filtrage |
| Connecteurs de partage Databricks vers Open | N'importe lequel | Provider | Serverless interactif du fournisseur | Le fournisseur effectue le filtrage |
* Lorsque vous utilisez OpenSharing avec un destinataire qui utilise le calcul sans serveur dans un autre compte, ou avec un destinataire dans le même compte, aucuns frais supplémentaires ne s’appliquent. Cela signifie qu’il n’existe aucun coût supplémentaire pour matérialiser la ressource de données.
Lors du partage de tables étrangères (Beta), la matérialisation est toujours effectuée et stockée côté fournisseur. Pour les tables Iceberg étrangères, la matérialisation est effectuée côté fournisseur lors du partage avec un destinataire ouvert qui n’utilise pas de client Iceberg. Les fournisseurs peuvent voir des frais supplémentaires attribués au stockage par défaut utilisé pour la matérialisation des données. Il n’existe aucun coût de calcul pour les tables étrangères pendant la version bêta.
L’attribution de la facturation peut également être interrogée à l’aide de la référence de la table système relative à l’utilisation facturable et de la référence de la table système relative à l’historique de matérialisation OpenSharing. Si le destinataire paie pour l’attribution, seul le destinataire peut voir l’enregistrement associé dans la table système. Pour obtenir des exemples de requêtes, consultez Exemples de requêtes.
OpenSharing entraîne-t-il des coûts de sortie ?
OpenSharing dans une région n’entraîne aucun coût de sortie. Contrairement à d’autres plateformes de partage de données, OpenSharing ne nécessite pas de réplication de données. Ce modèle présente de nombreux avantages, mais il signifie que votre fournisseur de cloud peut facturer des frais de sortie de données lorsque vous partagez des données entre des clouds ou des régions. Azure Databricks prend en charge le partage à partir de Cloudflare R2, qui n’entraîne aucun frais de sortie, et fournit d’autres outils et recommandations pour superviser et éviter les frais de sortie. Consultez Surveiller et gérer les coûts de sortie OpenSharing (pour les fournisseurs).
Toutefois, si le fournisseur utilise SecureConnect, le transfert de données est facturé par Azure Databricks au lieu du fournisseur cloud.
Les destinataires ont-ils un accès direct aux données sous-jacentes dans les vues partagées, les vues matérialisées et les tables de diffusion en continu ?
Pour les vues partagées, les vues matérialisées et les tables de diffusion en continu, le destinataire des données a un accès direct si l’une des valeurs suivantes est vraie :
- Le destinataire utilise le calcul serverless ou le calcul classique non dédié sur le même compte Azure Databricks.
- Le destinataire utilise le calcul serverless sur un autre compte Azure Databricks.
Sinon, les données sont matérialisées et filtrées côté fournisseur.
La matérialisation des données est stockée dans l'emplacement parent de stockage de la ressource de données partagée.
Lors du partage des ressources matérialisées, le calcul traite la requête en appliquant les filtres nécessaires et en créant une matérialisation temporaire mise en cache dans le stockage du fournisseur. Ces données filtrées sont remises aux destinataires à l’aide d’URL pré-signées de courte durée, ce qui garantit un accès sécurisé tout en conservant le contrôle d’accès fournisseur à destinataire.
Les fournisseurs peuvent-ils révoquer l’accès du destinataire ?
Oui, l’accès du destinataire peut être révoqué à la demande et selon des niveaux de granularité spécifiques. Vous pouvez refuser l’accès du destinataire à des partages et à des adresses IP spécifiques, filtrer ses données tabulaires, révoquer ses jetons et le supprimer complètement. Consultez Révoquer l’accès des destinataires à un partage et créer des destinataires de données pour OpenSharing (partage Databricks-to-Databricks).
N’est-il pas non sécurisé d’utiliser des URL pré-signées ?
OpenSharing utilise des URL pré-signées pour fournir un accès temporaire à un fichier dans le stockage d’objets. Elles sont uniquement attribuées aux destinataires qui ont déjà accès aux données partagées. Ils sont sécurisés, car ils sont de courte durée et n’étendent pas le niveau d’accès au-delà de ce que les destinataires ont déjà reçus.
Les jetons utilisés dans le protocole OpenSharing Databricks-to-Open sharing sont-ils sécurisés ?
Étant donné que OpenSharing active le partage multiplateforme( contrairement à d’autres plateformes de partage de données disponibles), le protocole de partage nécessite un jeton ouvert. Les fournisseurs peuvent garantir la sécurité des jetons en configurant leur durée de vie, en définissant des contrôles réseau et en révoquant l’accès à la demande. De plus, le jeton n’étend pas le niveau d’accès au-delà des autorisations existantes des destinataires. Consultez considérations relatives à la sécurité pour les jetons.
Si vous préférez ne pas utiliser de jetons pour gérer l’accès aux partages des destinataires, vous devez utiliser le partage Databricks-to-Databricks ou contacter l’équipe de votre compte Databricks pour d’autres solutions.
Quelle est la différence entre Lakeflow Connect et OpenSharing ?
OpenSharing vous permet de partager en toute sécurité des données actives entre plateformes, clouds et régions. Databricks recommande d’effectuer l’ingestion en utilisant des connecteurs managés, car ils se mettent à l’échelle pour prendre en charge les volumes de données élevés, les requêtes à faible latence, et les limites des API de tiers. Cependant, vous souhaiterez peut-être interroger vos données sans les déplacer.
Lorsque vous avez le choix entre les connecteurs managés et OpenSharing, choisissez OpenSharing pour les scénarios suivants :
- Limite de la duplication des données.
- Interrogation des données les plus récentes possibles.
Limites
Prise en charge du format de tableau et des fonctionnalités associées
Configuration requise pour le format :
- Les données tabulaires doivent être au format Delta ou Iceberg géré. Vous pouvez facilement convertir des tables Parquet au format Delta, puis les reconvertir. Voir CONVERT TO DELTA.
- OpenSharing peut uniquement lire des tables UniForm en tant que tables Delta.
Tables non prises en charge :
- Les fournisseurs ne peuvent pas partager de tables qui utilisent le clustering liquide avec le filtrage de partition.
- Les fournisseurs ne peuvent pas partager de tables R2 avec un point de contrôle V2.
- Les fournisseurs ne peuvent pas partager de tables avec des classements activés.
- Les fournisseurs ne peuvent pas partager de tables avec des filtres de lignes ou des masques de colonne.
- Les fournisseurs ne peuvent pas partager
SHALLOW CLONEtables. Azure Databricks ne prend pas en charge la présignature des URL pour les journaux Delta qui font référence à des chemins absolus. - Les fournisseurs ne peuvent pas partager des tables Iceberg managées avec des clients Iceberg externes. Consultez Ajouter des tables Iceberg managées à un partage et Activer le partage aux clients Iceberg externes.
- Les contraintes de clé étrangère ne sont pas disponibles dans les tables partagées.
Partage Databricks-to-Databricks uniquement
Les ressources suivantes peuvent uniquement être partagées à l’aide du flux de partage Databricks-à-Databricks :
- Partage de blocs-notes. Consultez Ajouter des fichiers notebook à un partage et Lire des données partagées à l’aide d’OpenSharing Databricks-to-Databricks (pour les destinataires).
- Partage de volume. Consultez Ajouter des volumes à un partage (pour les fournisseurs) et Lire les données partagées avec OpenSharing Databricks-to-Databricks (pour les destinataires).
- Partage de modèle. Consultez Ajouter des modèles à un partage (pour les fournisseurs) et Lire les données partagées via OpenSharing Databricks-to-Databricks (pour les destinataires).
Views
- Les vues partageables doivent être définies sur des tables Delta ou sur d’autres vues partageables. Consultez Ajouter des vues à un partage (pour les fournisseurs) et lire des vues partagées (pour les destinataires).
Diffusion en continu
- OpenSharing ne prend pas en charge la modification
responseFormatpendant l’exécution d’une source de diffusion en continu ou pendant les redémarrages de streaming.
Métadonnées du destinataire
- Les tables d’un
information_schemacatalogue partagé reflètent les métadonnées stockées dans le catalogue Unity. Ces métadonnées sont mises à jour à partir du fournisseur uniquement lorsque vous interrogez la table partagée directement ou exécutez une commande telle que DESCRIBE ou REFRESH FOREIGN. Jusqu’à ce moment-là,information_schemapeut apparaître obsolète par rapport aux données du fournisseur.
Limites techniques et de ressources
- Il existe un nombre maximal de fichiers autorisés dans les métadonnées pour une table partagée. Pour en savoir plus, consultez les erreurs de dépassement de la limite des ressources.
- Les schémas nommés
information_schemane peuvent pas être importés dans un metastore Unity Catalog, car ce nom de schéma est réservé dans Unity Catalog.
Consultez également la matrice de prise en charge des fonctionnalités Delta Lake.
Les suppressions en cascade contournent la protection de partage
La suppression d’un objet parent, tel qu’un catalogue ou un schéma, déclenche une suppression en cascade de ses objets enfants, même si ces objets enfants sont inclus dans des partages actifs. Après la suppression en cascade d’une ressource, vous ne pouvez pas rajouter une ressource portant le même nom au partage.
Pour éviter ce problème, supprimez les éléments de tous les partages avant de supprimer les objets parent.
Quotas de ressources
Azure Databricks applique des quotas de ressources sur tous les objets sécurisables OpenSharing. Ces quotas sont répertoriés dans les limites des ressources. Si vous prévoyez de dépasser ces limites de ressources, contactez l’équipe de votre compte Azure Databricks.
Vous pouvez surveiller l’utilisation de vos quotas à l’aide des API de quotas de ressources d’Unity Catalog. Consultez Surveiller votre utilisation des quotas de ressources du catalogue Unity.
Ressources supplémentaires
- Activer votre compte Databricks pour OpenSharing
- Créer des partages
- Créer des destinataires
- En savoir plus sur le partage Databricks-to-Open et les modèles de partage Databricks-to-Databricks
- Découvrez comment les destinataires accèdent aux données partagées