Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Par défaut, les vues matérialisées et les tables de diffusion en continu ne sont pas disponibles pour accéder à partir de systèmes externes. Azure Databricks fournit deux fonctionnalités qui vous permettent de rendre vos jeux de données disponibles pour les clients Delta Lake ou Iceberg :
Accès aux données externes (préversion publique) : l’activation de l’accès aux données externes pour les jeux de données de pipeline crée une copie des métadonnées du jeu de données qui permet aux clients d’utiliser les API REST Unity Catalog ou Iceberg, sans nécessiter une copie complète des données ou une planification d’actualisation distincte. Les clients doivent utiliser les API REST du catalogue et doivent prendre en charge Delta 4.0.0 ou version ultérieure, ou la spécification Iceberg v3.
Pour plus d’informations sur l’accès aux données externes pour les jeux de données de pipeline, consultez Activer l’accès aux données externes aux tables de streaming et aux vues matérialisées.
Mode de compatibilité (préversion publique) : l’activation du mode de compatibilité pour un jeu de données génère une version en lecture seule de vos données à un emplacement choisi, qui doit être mise à jour lorsque les tables sont actualisées. La version de compatibilité inclut des métadonnées v1 pour les formats Delta Lake et Iceberg, ainsi que la copie en lecture seule des données, ce qui permet d’accéder à un plus large éventail de clients (y compris les clients qui doivent lire directement les données de table, plutôt qu’via une API) au détriment du retard sur les mises à jour des données et des coûts de copie des données.
Pour plus d’informations sur le mode de compatibilité, consultez Mode de compatibilité.
Si vos clients externes prennent en charge les API REST, Azure Databricks recommande d’utiliser l’accès aux données externes pour permettre à ces clients d’accéder aux vues matérialisées ou aux tables de diffusion en continu. Pour un large éventail de clients, en particulier les clients plus anciens et d’autres tables gérées par le catalogue Unity, utilisez le mode de compatibilité.
| Capacité | Accès aux données externes | Mode de compatibilité |
|---|---|---|
| Copie des données | Aucune copie de données n’est requise. | Copie de données requise. |
| Cohérence | Cohérence de lecture après écriture. Les clients externes voient les modifications dès qu’elles se produisent dans le jeu de données. | Les mises à jour se produisent selon une planification. Par défaut, la table de compatibilité est mise à jour toutes les heures. Cette opération peut être définie pour être mise à jour immédiatement après une modification de la table source, mais elle est toujours retardée par le temps de copie des données. |
| Accès | Nécessite un accès à l’API REST « moderne ». Prend en charge les API de catalogue Delta 4.0.0 ou ultérieures ou les API de spécification Iceberg v3 (nécessite la prise en charge des vecteurs de suppression). | Compatible avec tous les clients Delta Lake ou Iceberg. |
| Objet de table unique | Les vues matérialisées et les tables de diffusion en continu apparaissent sous la forme de tables gérées portant le même nom que le jeu de données d’origine pour les clients externes. | Les tables de compatibilité apparaissent sous la forme d’une nouvelle table dans un nouvel emplacement pour les clients externes. |
| Prise en charge des types de table | Prend en charge les vues matérialisées et les tables de streaming gérées par Lakeflow Spark Declarative Pipelines. | Prend en charge les vues matérialisées et les tables de streaming, qu’elles soient gérées par les pipelines déclaratifs Spark de Lakeflow ou autonomes, ainsi que toutes les autres tables gérées par Unity Catalog. |
| Coûts | Le coût de maintenance des métadonnées externes fait partie du coût d’actualisation de la vue matérialisée ou de la table de diffusion en continu. Cela est généralement inférieur à 1% du coût et du temps de l’actualisation. | La majorité du coût du mode de compatibilité est le coût du transfert des données héritées vers le nouvel emplacement. |
Ressources additionnelles
- Pour en savoir plus sur l’accès aux données Databricks à partir de systèmes externes en général, consultez Accéder aux données Databricks à l’aide de systèmes externes.
- Autoriser l’accès externe aux données pour les tables de streaming et les vues matérialisées
- Mode de compatibilité