Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Les offres groupées Automation déclaratives (anciennement Databricks Asset Bundles) sont un outil permettant de faciliter l’adoption des meilleures pratiques en matière d’ingénierie logicielle, notamment le contrôle de code source, l’examen du code, les tests et la livraison continue (CI/CD), pour vos projets de données et d’INTELLIGENCE artificielle. Les offres groupées permettent d’inclure des métadonnées en même temps que les fichiers sources de votre projet et de décrire les ressources Databricks telles que les travaux et les pipelines en tant que fichiers sources. Finalement, un bundle est une définition de bout en bout d’un projet, notamment la façon dont le projet doit être structuré, testé et déployé. Cela facilite la collaboration sur des projets pendant le développement actif.
La collection de fichiers sources et de métadonnées de votre projet groupé est déployée en tant qu’offre groupée unique dans votre environnement cible. Un pack se compose des parties suivantes :
- Configurations requises de l’infrastructure cloud et de l’espace de travail
- Des fichiers sources, tels que des notebooks et des fichiers Python, qui incluent la logique métier
- Définitions et paramètres pour les ressources Databricks, telles que les jobs Lakeflow, les pipelines déclaratifs Lakeflow Spark, les tableaux de bord, les points de terminaison Model Serving, les expériences MLflow et les modèles enregistrés MLflow
- Des tests unitaires et d’intégration
Le diagramme suivant fournit une vue générale d’un pipeline de développement et CI/CD avec des bundles :
Procédure pas à pas vidéo
Cette vidéo démontre comment utiliser des kits d'automatisation déclarative (5 minutes).
Quand dois-je utiliser des offres groupées ?
Les bundles d'automatisation déclaratifs sont une approche IaC (Infrastructure as Code) pour gérer vos projets Databricks. Utilisez-les lorsque vous souhaitez gérer des projets complexes où plusieurs contributeurs et automatisations sont essentiels, et l’intégration et le déploiement continus (CI/CD) sont requis. Étant donné que les regroupements sont définis et gérés par le biais de modèles et de fichiers YAML que vous créez et gérez en même temps que le code source, ils correspondent aux scénarios où IaC est une approche appropriée.
Voici quelques-uns des meilleurs scénarios pour les bundles :
- Développez des données, analyses et projets ML dans un environnement basé sur l’équipe. Les packs peuvent vous permettre de vous organiser et de gérer efficacement divers fichiers sources. Ils garantissent une collaboration harmonieuse et des processus simplifiés.
- Itérez plus rapidement sur des problèmes ML. Gérez des ressources de pipeline ML (telles que des formations et des travaux d’inférence par lots) en utilisant des projets ML qui suivent les meilleures pratiques de production dès le début.
- Définissez des normes d’organisation pour de nouveaux projets en créant des modèles de pack personnalisés qui incluent des autorisations, des principaux de service et des configurations CI/CD par défaut.
- Conformité réglementaire : Dans les industries où la conformité réglementaire est une préoccupation significative, les ensembles peuvent aider à conserver un historique versionné du code et des travaux d'infrastructure. Cela facilite la gouvernance et permet de veiller à ce que les normes de conformité nécessaires soient satisfaites.
Comment fonctionnent les offres groupées ?
Les métadonnées de regroupement sont définies à l’aide de fichiers YAML qui spécifient les artefacts, les ressources et la configuration d’un projet Databricks. Vous pouvez ensuite utiliser l’interface CLI Databricks pour valider, déployer et exécuter des regroupements à l’aide de ces fichiers YAML regroupés. Vous pouvez exécuter des projets regroupés à partir d’IDE, de terminaux ou directement dans Databricks.
Vous pouvez créer des regroupements manuellement ou sur la base d’un modèle. L’interface CLI Databricks fournit des modèles par défaut pour des cas d’usage simples, mais pour des travaux plus spécifiques ou complexes, vous pouvez créer des modèles de bundle personnalisés pour implémenter les meilleures pratiques de votre équipe et maintenir la cohérence des configurations courantes.
Pour plus d’informations sur le fichier YAML de configuration utilisé pour définir Bundles Automation déclaratifs, consultez Configuration des Bundles Automation déclaratifs.
Que dois-je installer pour utiliser des bundles ?
Les bundles d'automatisation déclarative sont une fonctionnalité de l'interface en ligne de commande Databricks. Vous générez des bundles localement, puis utilisez l’interface CLI Databricks pour déployer vos offres groupées pour cibler des espaces de travail Databricks distants et exécuter des flux de travail groupés dans ces espaces de travail à partir de la ligne de commande.
Note
Si vous souhaitez simplement utiliser des bundles dans l’espace de travail, vous n’avez pas besoin d’installer l’interface CLI Databricks. Consultez Collaborer sur les offres groupées dans l’espace de travail.
Pour générer, déployer et exécuter des bundles dans vos espaces de travail Azure Databricks :
Vos espaces de travail Databricks distants doivent avoir des fichiers d’espace de travail activés. Si vous utilisez Databricks Runtime version 11.3 LTS ou ultérieure, cette fonctionnalité est activée par défaut.
Vous devez installer l’interface CLI Databricks, version v0.218.0 ou ultérieure. Pour installer ou mettre à jour l’interface CLI Databricks, consultez Installer ou mettre à jour l’interface CLI Databricks.
Databricks vous recommande de mettre régulièrement à jour vers la dernière version de l’interface CLI pour tirer parti des nouvelles fonctionnalités de bundle. Pour trouver la version de l’interface CLI Databricks installée, exécutez la commande suivante :
databricks --versionVous avez configuré l’interface CLI Databricks pour accéder à vos espaces de travail Databricks. Databricks recommande de configurer l’accès à l’aide de l’authentification utilisateur à machine (U2M), qui est décrite dans Configurer l’accès à votre espace de travail. D’autres méthodes d’authentification sont décrites dans Authentication for Declarative Automation Bundles.
Comment prendre en main les offres groupées ?
Le moyen le plus rapide de démarrer le développement d’un bundle local consiste à utiliser un modèle de projet groupé. Créez votre premier projet de pack à l’aide de la commande de pack init de l’interface CLI Databricks. Cette commande présente un choix de modèles de pack par défaut fournis par Databricks et pose une série de questions pour initialiser des variables de projet.
databricks bundle init
La création de votre pack est la première étape du cycle de vie d’un pack. Ensuite, développez votre paquet en définissant les paramètres du paquet et les ressources dans les databricks.yml fichiers de configuration des ressources. Enfin, validez et déployez votre bundle, puis exécutez vos flux de travail.
Conseil
Vous trouverez des exemples de configurations de packs dans Exemples de configurations de packs et le référentiel d’exemples de packs dans GitHub.
Étapes suivantes
- Créez un bundle qui déploie un notebook sur un espace de travail Azure Databricks, puis exécutez ce notebook déployé dans un travail ou un pipeline Azure Databricks. Voir Développer un travail avec des bundles Automation déclaratifs et Développer des pipelines avec des bundles Automation déclaratifs.
- Créez un pack qui déploie et exécute une pile MLOps. Consultez les bundles d'Automatisation Déclarative pour les piles MLOps.
- Lancez un déploiement groupé dans le cadre d’un flux de travail CI/CD (intégration continue/déploiement continu) dans GitHub. Consultez Exécuter un flux de travail CI/CD avec un bundle qui exécute une mise à jour de pipeline.
- Créez un paquet qui génère, déploie et appelle un fichier Python wheel. Consultez Créer un fichier de roue Python à l’aide de bundles Automation déclaratifs.
- Générez la configuration dans votre bundle pour une tâche ou une autre ressource dans votre espace de travail, puis liez-la à la ressource dans l'espace de travail pour maintenir la synchronisation de la configuration. Consultez databricks bundle generate et databricks bundle deployment bind.
- Créez et déployez un bundle dans l’espace de travail. Consultez Collaborer sur les offres groupées dans l’espace de travail.
- Créez un modèle personnalisé que vous et d’autres peuvent utiliser pour créer un pack. Un modèle personnalisé peut inclure des autorisations, des principaux de service et une configuration CI/CD personnalisée par défaut. Consultez les modèles de projet de Bundles d'automatisation déclaratifs.
- Migrez de dbx vers des bundles Automation déclaratifs. Consultez Migrer de dbx vers des packs.
- Découvrez les nouvelles fonctionnalités majeures les plus récentes publiées pour les offres groupées Automation déclaratives. Consultez les notes de publication des packages d'automatisation déclaratifs.