Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cette page fournit des recommandations pour les administrateurs et les utilisateurs puissants qui configurent les connexions entre Azure Databricks et les sources de données externes et les services.
Vous pouvez connecter votre compte Azure Databricks aux sources de données telles que le stockage d’objets cloud, les systèmes de gestion des bases de données relationnelles, les services de données de streaming et les plateformes d’entreprise telles que les machines virtuelles crms. Vous pouvez également connecter votre compte Azure Databricks aux services externes non-stockage.
Configurer les connexions au stockage d’objets cloud
La plupart des données utilisées par Azure Databricks charges de travail sont stockées dans le stockage d’objets cloud, comme Azure Data Lake Storage ou AWS S3. Vous pouvez gérer l’accès au stockage d’objets cloud à l’aide de l’une des opérations suivantes :
Catalogue Unity (recommandé), qui fournit une gouvernance des données pour les données structurées et non structurées dans le stockage d’objets cloud. Consultez Se connecter au stockage d’objets cloud à l’aide du catalogue Unity.
Connecteurs hérités et modèles de connexion. Consultez Configure d’accès au stockage d’objets cloud pour Azure Databricks à l’aide de modèles hérités.
Connexions du catalogue Unity
Une connexion de catalogue Unity est un objet sécurisable qui stocke le point de terminaison et les informations d’identification nécessaires pour accéder à un système externe. Les connexions fournissent un moyen régi de gérer l’authentification et la configuration pour les systèmes de données externes, notamment la fédération, l’ingestion managée, JDBC et HTTP. Pour obtenir une vue d’ensemble de tous les types de connexions et comment choisir entre eux, consultez les connexions du catalogue Unity.
Configurer des connexions à des systèmes de données externes
Databricks offre plusieurs options pour configurer des connexions à des systèmes de données externes. Le tableau suivant fournit une vue d’ensemble de ces options :
| Option | Description |
|---|---|
| Connecteurs de fédération de requête | La fédération de requêtes fournit un accès en lecture seule aux bases de données relationnelles externes en envoyant des requêtes de catalogue Unity sur JDBC. Les sources prises en charge incluent PostgreSQL, MySQL, SQL Server, Snowflake, etc. |
| Connecteurs de fédération de catalogues | La fédération de catalogue connecte des plateformes de catalogue externes, telles qu’un metastore Hive ou snowflake Horizon Catalog, afin de pouvoir interroger leurs données directement dans le stockage de fichiers sans déplacement de données. |
| Connecteurs d’ingestion managés | Lakeflow Connect permet aux utilisateurs administrateurs de créer une connexion et un pipeline d’ingestion managé en même temps dans l’interface utilisateur d’ingestion des données. Consultez Connecteurs gérés dans Lakeflow Connect. Si les utilisateurs qui créent des pipelines sont des utilisateurs non administrateurs ou planifient d’utiliser des API Databricks, des SDK Databricks, de l’interface CLI Databricks ou des bundles Automation déclaratifs, un administrateur doit d’abord créer la connexion dans l’Explorateur de catalogues. Ces interfaces nécessitent que les utilisateurs spécifient une connexion existante lorsqu’ils créent un pipeline. Consultez Se connecter aux sources d’ingestion managées. |
| Connecteurs de diffusion en continu | Azure Databricks fournit des connecteurs optimisés pour de nombreux systèmes de données de streaming. Pour toutes les sources de données de streaming, vous devez générer des informations d’identification qui fournissent l’accès et chargent ces informations d’identification dans Azure Databricks. Databricks recommande de stocker les informations d’identification à l’aide de secrets, car vous pouvez utiliser des secrets pour toutes les options de configuration et dans tous les modes d’accès. Tous les connecteurs de données pour les sources de streaming prennent en charge la transmission d’informations d’identification à l’aide d’options lorsque vous définissez des requêtes de streaming. Consultez les connecteurs Standard dans Lakeflow Connect. |
| Intégrations tierces | Utilisez des outils tiers pour vous connecter à des sources de données externes et automatiser l’ingestion de données dans le lakehouse. Certaines solutions incluent également les opérations ETL inverses et l’accès direct aux données de lakehouse à partir de systèmes externes. Voir Qu’est-ce que Databricks Partner Connect ?. |
| API de source de données Spark | Utilisez l’API source de données Spark pour lire et écrire dans des bases de données externes. Databricks Runtime inclut des connecteurs groupés pour les sources courantes. Vous pouvez également utiliser une connexion de catalogue Unity avec votre propre fichier JAR du pilote JDBC, installer des connecteurs tiers sur des clusters dédiés ou créer des connecteurs personnalisés avec l’API PySpark DataSource. Consultez les sources de données Spark. Pour un accès en lecture seule, Databricks recommande Lakehouse Federation. |
| JDBC | Se connecter à des bases de données externes à l'aide de JDBC avec une connexion Unity Catalog pour un accès contrôlé, l'isolation des informations d'identification et le support des calculs inter-plateformes. Consultez la connexion JDBC. Pour les configurations JDBC héritées sans gouvernance du catalogue Unity, consultez Les bases de données de requête à l’aide de JDBC. Pour la fédération de requêtes en lecture seule, Lakehouse Federation est toujours préférée. |
Configurer des connexions à des services cloud non-stockage
Unity Catalog régit l’accès aux services cloud non-stockage à l’aide d’un objet sécurisable appelé informations d’identification de service. Les informations d’identification d’un service encapsulent des informations d’identification cloud à long terme qui permettent d’accéder à un service cloud non-stockage auquel les utilisateurs doivent se connecter à partir de Azure Databricks. Consultez Se connecter aux services cloud externes à l’aide du catalogue Unity.
Gérer et demander l’accès aux sources de données et aux services externes
La plupart des méthodes de connexion nécessitent des privilèges élevés sur la source de données externe ou le service et l’espace de travail Azure Databricks. Dans les organisations classiques, peu d’utilisateurs disposent de privilèges suffisants dans Azure Databricks ou dans des fournisseurs de données externes et de stockage pour configurer eux-mêmes les connexions de données.
Votre organisation a peut-être déjà configuré l’accès à une source de données ou à un service à l’aide de l’un des modèles décrits dans les articles liés à partir de cette page. Si votre organisation dispose d’un processus bien défini pour demander l’accès aux données et aux services tiers, Databricks recommande de suivre ce processus. Si vous ne savez pas comment accéder à une source de données, cette procédure peut vous aider à :
- Utilisez Catalog Explorer pour afficher les tables et les volumes auxquels vous pouvez accéder. Consultez Qu’est-ce que Catalog Explorer ?.
- Demandez à vos collègues ou responsables quelles sont les sources de données auxquelles ils peuvent accéder.
- La plupart des organisations utilisent des groupes synchronisés à partir de leur fournisseur d’identité (par exemple, Okta ou Microsoft Entra ID) pour gérer les autorisations pour les utilisateurs de l’espace de travail. Si d’autres membres de votre équipe peuvent accéder aux sources de données auxquelles vous avez besoin d’accéder, un administrateur d’espace de travail vous ajoute au groupe approprié pour accorder l’accès.
- Si une table, un volume ou une source de données particulière a été configurée par un collègue, cette personne doit pouvoir vous accorder l’accès aux données.
Certaines organisations attachent des autorisations d’accès aux données à des clusters de calcul et à des entrepôts SQL spécifiques. Il s’agit d’un modèle de gouvernance hérité, mais si votre organisation l’utilise et que vous souhaitez apprendre quelles sources de données sont disponibles sur une ressource de calcul spécifique, contactez le créateur de calcul répertorié sous l’onglet Calcul .