Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article explique comment activer Model Serving dans votre espace de travail et faire passer vos modèles à l’environnement Model Serving basé sur un calcul sans serveur.
Important
À partir du 22 août 2025, les clients ne pourront plus créer de nouveaux points de terminaison de livraison en utilisant l'ancien service de modèles MLflow. Le 15 septembre 2025, l’expérience héritée atteint la fin de vie et tous les points de terminaison existants utilisant ce service ne peuvent plus être utilisés.
Spécifications
- Modèle inscrit dans le Registre de modèles MLflow.
- Les autorisations sur les modèles inscrits sont décrites dans le guide de contrôle d’accès.
- Activer le calcul serverless sur votre espace de travail.
Modifications importantes
- Dans Model Serving, le format de la requête envoyée au point de terminaison et celui de la réponse renvoyée par le point de terminaison diffèrent légèrement de ceux de l’ancien service de modèles MLflow. Consultez Notation d’un point de terminaison du modèle pour plus d’informations sur le nouveau format de protocole.
- Dans Model Serving, l’URL du point de terminaison inclut
serving-endpointsau lieu demodel. - Model Serving inclut une prise en charge complète de la gestion des ressources avec des flux de travail d’API.
- Model Serving est prêt pour la production et soutenu par le SLA Azure Databricks.
Identifier les points de terminaison qui utilisent le service de modèles MLflow hérité
Pour identifier les points de terminaison de diffusion de modèles qui utilisent l’ancien service de modèles MLflow :
- Accédez à l’interface utilisateur des modèles dans votre espace de travail.
- Sélectionnez le filtre Registre du modèle d’espace de travail .
- Sélectionnez le filtre de service hérité activé uniquement .
Migrer les modèles servis par l’ancien service de modèles MLflow vers Model Serving
Vous pouvez créer un point de terminaison de Model Serving et faire évoluer en toute flexibilité les workflows de service de modèles sans désactiver MLflow Model Serving hérité.
Les étapes suivantes montrent comment effectuer cette opération avec l’interface utilisateur. Pour chaque modèle pour lequel le service de modèles MLflow hérité est activé :
- Inscrivez votre modèle dans le catalogue Unity.
- Accédez à Points de terminaison de service dans la barre latérale de votre espace de travail de machine learning.
- Suivez la procédure décrite dans Créer et configurer des points de terminaison de mise en service de modèles pour créer un point de terminaison de mise en service avec votre modèle.
- Effectuez la transition de votre application pour utiliser la nouvelle URL fournie par le point de terminaison de service pour interroger le modèle, ainsi que le nouveau format de scoring.
- Lorsque vos modèles sont transférés, vous pouvez accéder à Modèles dans la barre latérale de votre espace de travail Machine Learning.
- Sélectionnez le modèle pour lequel vous souhaitez désactiver le service de modèles MLflow hérité.
- Sous l’onglet Serving (Mise en service), sélectionnez Stop (Arrêter).
- Un message de confirmation s’affiche. Sélectionnez Stop Serving (Arrêter la mise en service).
Migrer des versions de modèle déployées vers Model Serving
Dans les versions précédentes de la fonctionnalité Model Serving, le point de terminaison de service a été créé en fonction de l’étape de la version de modèle inscrite : Staging ou Production. Pour migrer vos modèles servis à partir de cette expérience, vous pouvez répliquer ce comportement dans la nouvelle expérience Model Serving.
Cette section montre comment créer des points de terminaison de service de modèle distincts pour les versions de modèles Staging et Production. Les étapes suivantes montrent comment effectuer cette opération avec l’API de points de terminaison de service pour chacun de vos modèles servis.
Dans l’exemple, le nom du modèle inscrit modelA a la version 1 dans l’étape du modèle Production et la version 2 dans l’étape du modèle Staging.
Créez deux points de terminaison pour votre modèle inscrit, un pour les versions de modèle
Staginget un autre pour les versions de modèleProduction.Pour les versions de modèle
Staging:POST /api/2.0/serving-endpoints { "name":"modelA-Staging" "config": { "served_entities": [ { "entity_name":"model-A", "entity_version":"2", // Staging Model Version "workload_size":"Small", "scale_to_zero_enabled":true }, ], }, }Pour les versions de modèle
Production:POST /api/2.0/serving-endpoints { "name":"modelA-Production" "config": { "served_entities": [ { "entity_name":"model-A", "entity_version":"1", // Production Model Version "workload_size":"Small", "scale_to_zero_enabled":true }, ], }, }Vérifiez l’état des points de terminaison.
Pour le point de terminaison de mise en lots :
GET /api/2.0/serving-endpoints/modelA-StagingPour le point de terminaison de production :
GET /api/2.0/serving-endpoints/modelA-ProductionUne fois les points de terminaison prêts, interrogez le point de terminaison à l’aide de :
Pour le point de terminaison de mise en lots :
POST /serving-endpoints/modelA-Staging/invocationsPour le point de terminaison de production :
POST /serving-endpoints/modelA-Production/invocationsMettez à jour le point de terminaison en fonction des transitions de version du modèle.
Dans le scénario où un nouveau modèle version 3 est créé, vous pouvez faire passer le modèle version 2 à
Production, tandis que la version 3 du modèle peut passer àStaginget la version 1 du modèle estArchived. Ces modifications peuvent être reflétées dans des points de terminaison de service de modèle distincts comme suit :Pour le point de terminaison
Staging, mettez à jour le point de terminaison pour utiliser la nouvelle version du modèle dansStaging.PUT /api/2.0/serving-endpoints/modelA-Staging/config { "served_entities": [ { "entity_name":"model-A", "entity_version":"3", // New Staging model version "workload_size":"Small", "scale_to_zero_enabled":true }, ], }Pour le point de terminaison
Production, mettez à jour le point de terminaison pour utiliser la nouvelle version du modèle dansProduction.PUT /api/2.0/serving-endpoints/modelA-Production/config { "served_entities": [ { "entity_name":"model-A", "entity_version":"2", // New Production model version "workload_size":"Small", "scale_to_zero_enabled":true }, ], }