Planification des déploiements d’agents Copilot Studio en fonction du débit et des limites de taux

Les agents Copilot Studio prêts pour la production nécessitent plus que des licences et une planification du volume total de messages. Ils ont également besoin d’une planification du débit. La planification du débit couvre la vitesse à laquelle le trafic arrive, les services de plateforme que la solution appelle et les limites qui s’appliquent à l’ensemble de la solution.

Cet article aide les architectes de solutions, les fabricants et les administrateurs Power Platform à préparer des déploiements Copilot Studio volumineux pour le trafic de production, les tests d’acceptation des utilisateurs (UAT), les tests de charge, les scénarios B2C (Business-to-Customer) et les charges de travail autonomes.

Le provisionnement de la tarification est distinct du provisionnement des licences

La planification de Copilot Studio en production comporte deux volets de travail liés, mais distincts :

  • Le provisionnement des licences couvre les droits d’utilisation commerciaux et la consommation, tels que les licences, les crédits, la capacité prépayée, les forfaits de messages et la facturation à l’utilisation.
  • L’approvisionnement de débit couvre la rapidité de traitement du trafic avant l’application de contrôles de limitation ou de protection des services.

Note

Microsoft utilise le terme quotas pour les limites de taux d’Copilot Studio. Dans le vocabulaire de l’industrie plus large, cette activité de planification est souvent appelée provisionnement de taux. Passez en revue les limites publiées, estimez les taux de demande de pointe et planifiez avant l’arrivée du trafic de production.

Le paiement à l’utilisation peut augmenter les limites disponibles par rapport aux configurations de capacité inférieure, mais le débit n’est pas infini. Vérifiez les limites actuelles de Copilot Studio, les quotas de requêtes Power Platform, les limites de Power Automate, les limites de protection du service Dataverse, les règles de limitation des connecteurs et les limites des API en aval.

Que se passe-t-il en cas de limitation de bande passante ?

La limitation du débit est un mécanisme de protection des services. Il protège les services partagés contre les modèles de trafic qui dépassent les limites publiées, les contrôles de rafale ou la capacité de service. Le symptôme exact dépend du service faisant l’objet de la limitation de bande passante.

Lorsqu’une limite est atteinte, la conséquence est plus qu’un problème de planification. Les demandes peuvent être limitées, retardées, bloquées ou rejetées. Dans les conversations orientées utilisateur, ce comportement peut apparaître comme une interruption de service temporaire. Par exemple, l’utilisateur peut ne pas pouvoir envoyer le message suivant, recevoir un message de limite d’utilisation ou non disponible de l’agent ou rencontrer une étape ayant échoué, car un flux, un connecteur, un appel Dataverse, un service IA ou une API en aval a atteint sa limite.

Découvrez les symptômes et les messages d’erreur spécifiques à Copilot Studio dans Résoudre les erreurs de limite d’utilisation dans les agents.

Comment les limites de débit sont mesurées

Les limites de débit mesurent la quantité de trafic qu’un service peut accepter pendant une fenêtre de temps spécifique. Réfléchissez à ces fenêtres de manière granulaire : par minute, par cinq minutes, par 10 minutes, par heure, par jour, par semaine et par mois. Le volume mensuel ou hebdomadaire permet d’estimer la demande totale, mais des fenêtres temporelles plus courtes sont importantes pour le dimensionnement du débit, car le bridage est souvent dû à des pics de trafic.

Par exemple, une entreprise B2C peut recevoir la plupart de son trafic d’agent pendant une heure de campagne ciblée. Sa moyenne hebdomadaire peut sembler faible, mais cette seule heure peut encore exercer une pression suffisante sur le débit pour entraîner une limitation du débit ou des interruptions de service. Une conception qui semble sûre au niveau hebdomadaire ou mensuel peut encore dépasser les limites pendant un pic d’une heure.

Comprendre l’étendue des limites

Les limites ne s’appliquent pas uniquement au niveau de l’agent individuel. Selon le service, ils peuvent s’appliquer au niveau de l’environnement, au niveau de l’outil, au niveau de l’API, au niveau du connecteur, au niveau du canal ou au niveau du service en aval.

Par exemple, les limites du nombre de messages par agent de Copilot Studio s’appliquent à chaque environnement Dataverse. Lorsque vous estimez le trafic, incluez toutes les sources qui envoient des messages à des agents dans cet environnement, notamment les canaux accessibles par l’utilisateur, les intégrations, les charges de travail autonomes et les compétences de Bot Framework Azure. Vérifiez les valeurs et l’étendue actuelles dans Copilot Studio quotas et limites.

Déterminez si le provisionnement des tarifs s’applique à votre agent

Tous les agents n’ont pas besoin d’un travail détaillé de configuration tarifaire. Un simple agent de FAQ interne, avec une audience restreinte, une utilisation prévisible et peu ou pas d’appels en aval, a peu de chances d’atteindre les limites de débit. Le provisionnement du débit devient important lorsqu’un assistant risque de dépasser les limites de requêtes par minute ou par heure, même si son volume mensuel semble modeste.

Réfléchissez au trafic attendu au début du projet, en même temps que la conception de la solution. Avant que les tests d’acceptation des utilisateurs (UAT) et les tests de charge commencent, l’équipe doit être confiante que la conception, l’environnement, les services connectés et les systèmes en aval peuvent prendre en charge le profil de débit attendu.

Ces recommandations sont surtout importantes pour les agents de niveau entreprise les plus grands et les plus exigeants, lorsque le trafic peut arriver par rafales, que de nombreux utilisateurs ou événements peuvent solliciter l’agent en même temps, ou que chaque interaction dépend de plusieurs services de la plateforme. Il peut également s’appliquer à des agents plus petits avec des modèles d’utilisation concentrés, tels qu’une fenêtre de lancement courte, un événement à l’échelle du service, un processus planifié ou un flux de travail qui crée de nombreuses requêtes en quelques minutes.

Les assistants B2C et autonomes nécessitent un provisionnement à taux anticipé

Les agents B2C accessibles au client peuvent recevoir du trafic à partir de campagnes, de sites web publics, de portails clients, de communications d’incidents, de lancements de produits ou de demandes saisonnières. Les agents autonomes peuvent générer un trafic à haute fréquence à partir de planifications, d’événements, de processus en arrière-plan ou lorsqu’ils appellent plusieurs outils et flux de travail.

Tip

Considérez les cas d’usage B2C et en libre-service comme des scénarios de configuration des tarifs à part entière. Ils peuvent générer du trafic en rafale, plusieurs requêtes simultanées et une activité en arrière-plan à haute fréquence plus rapide que de nombreuses expériences de conversation accessibles aux employés.

Utiliser des fenêtres de pointe, pas seulement des totaux mensuels

Demandez si l’agent peut créer des demandes concentrées en une minute ou une heure. Un scénario plus petit peut toujours avoir besoin d’un provisionnement de débit si un test de charge, une campagne, une réponse de panne ou un déclencheur automatisé envoie trop de messages, des appels d’INTELLIGENCE artificielle générative, des actions de flux de travail, des appels de connecteur ou des requêtes Dataverse via l’environnement dans une courte fenêtre.

Le volume mensuel est utile pour estimer la demande totale, mais il ne suffit pas pour dimensionner le débit. Convertissez l’utilisation attendue en fenêtres de temps plus petites afin de pouvoir comparer la conception avec les requêtes actuelles par minute (RPM), les requêtes par heure (RPH), les rafales et les limites quotidiennes des pages liées.

Créez à la fois un profil de trafic moyen et un profil de trafic maximal. Par exemple, si la plupart du trafic se produit tous les jours entre 17 h et 17 h, le pic horaire doit refléter cette concentration. L’estimation quotidienne n’a pas besoin d’être de 24 fois l’heure de pointe si le trafic est concentré dans une fenêtre.

Dans quels autres cas une limitation du débit peut-elle se produire ?

Le bridage peut également se produire dans les cas suivants :

  • Une grande population d’employés utilise l’agent pendant une fenêtre de pointe prévisible, telle qu’un événement ou une formation à l’échelle du service.
  • Une campagne marketing, une panne, un lancement ou un événement d’entreprise planifié crée un pic de trafic court.
  • Les flux Power Automate incluent des boucles, des nouvelles tentatives, une pagination ou des flux enfants qui amplifient le volume de requêtes.
  • Les rapports, l’audit, l’exportation de la télémétrie ou la capture des transcriptions s’exécutent de manière synchrone pendant le traitement de la requête utilisateur.
  • Plusieurs agents ou charges de travail partagent le même environnement, identité, connecteur ou capacité d’API en aval.
  • Les tests de charge montent en puissance plus rapidement que ce que l’architecture de production ou les processus de support sont prêts à prendre en charge.

Où rechercher les limites de débit pertinentes

Copilot Studio a ses propres limites et le chemin d'exécution de l'agent peut inclure d'autres services avec leurs propres limites. Passez en revue toutes les limites pertinentes pour les services que votre agent utilise.

limites de Copilot Studio

Zone de provisionnement tarifaire Éléments à rechercher Où vérifier les valeurs actuelles Comment l’utiliser ?
Messages à un agent Limite et étendue RPM/RPH actuelles pour les messages envoyés à l’agent. Quotas et limites de Copilot Studio Comparez les messages attendus par minute et par heure pour l’environnement Dataverse cible.
Messages IA génératifs Limite actuelle pour l’orchestration générative, les actions de l’agent, les outils IA, les actions de workflow de l’agent et les réponses génératives. Messages d’IA générative à un agent Modélisez des scénarios à forte composante d’IA et autonomes en fonction des limites actuellement publiées.
Nœuds de déclencheur autonomes Limites actuelles qui s’appliquent lorsqu’un agent autonome est déclenché par des événements, des planifications ou des processus en arrière-plan. Quotas et limites de Copilot Studio Modéliser des charges de travail basées sur des événements et planifiées séparément du trafic de conversation interactif.
limites des demandes d’abonnement Copilot Studio Limites de requête Power Platform actuelles qui s’appliquent à l’utilisation de Copilot Studio. limites d’abonnement Copilot Studio Utilisez ces valeurs en même temps que la planification de la limite de débit pour les flux, Dataverse et les services connectés.

Autres limites de plateforme à prendre en compte

La limite la plus basse dans le chemin d’exécution détermine l’expérience utilisateur. Un agent Copilot Studio peut respecter ses propres limites alors même qu’un flux, un connecteur, un appel Dataverse, un service linguistique ou une API externe fait l’objet d’une limitation de débit.

Note

D’autres limites de plateforme peuvent affecter votre agent s’il utilise d’autres composants dans le chemin de requête de l’agent. Prenez également en compte ces limites, notamment Power Platform, Power Automate, Dataverse, connecteurs, services linguistiques et systèmes en aval.

Zone d’exécution Éléments à examiner Questions sur le provisionnement de taux Où vérifier les limites actuelles
Plan des requêtes Power Platform Requêtes dans Power Automate, appels de workflow Copilot Studio, utilisation de Dataverse, Power Apps et Dynamics 365. Quel utilisateur, connexion, utilisateur d’application ou principal de service génère les demandes ? Les quotas de requêtes sont-ils suffisants pour la charge de travail quotidienne attendue et les pics de charge ? Limites et allocations de requêtes
Flux Power Automate Déclencheurs, actions, boucles, flux enfants, actions HTTP, actions du connecteur, tentatives de nouvelle exécution, pagination et exécution simultanée. Combien d’actions sont créées par tour d’agent ? Les limites de rafale, de concurrence, de déclencheur et de connecteur sont-elles incluses dans le périmètre ? Comprendre les limites de la plateforme et éviter la limitation

Limites des flux automatisés, planifiés et instantanés
Dataverse Opérations CRUD, plug-ins, flux de travail, opérations d’affectation/partage, appels de connecteur et opérations système requises pour terminer les transactions. Quels utilisateurs, utilisateurs d’application ou principaux de service génèrent des appels Dataverse ? Les limites de protection du service ou le comportement de nouvelle tentative sont-ils susceptibles de s’appliquer ? Limites API de protection de service

Vue d’ensemble des limites de l’API Dataverse
Connecteurs Connecteurs standard, connecteurs premium, connecteurs personnalisés, limitation du débit propre à chaque connecteur et les API en aval. Quel connecteur est le goulot d’étranglement ? Le service en aval applique-t-il sa propre limite de débit ? Limites de débit d’API sur les connecteurs

référence du connecteur Power Automate
Services de compréhension du langage conversationnel (CLU) et d’IA Appels CLU, requêtes IA, opérations de recherche et de résumé, outils basés sur des modèles, taille de la charge utile et limites spécifiques au service. Chaque utilisateur appelle-t-il un langage ou un service IA ? Ces appels sont-ils répétés pendant les nouvelles tentatives ou l’orchestration ? Limites de compréhension du langage conversationnel

Quotas et limites de Copilot Studio
API externes et systèmes métier API fournisseur, API internes, bases de données, intergiciels, passerelles et services personnalisés. Quelle limite le propriétaire en aval applique-t-il ? Existe-t-il un contrat de nouvelle tentative, une file d’attente ou une stratégie de rétropression ? Utilisez les limites actuelles du propriétaire du service en aval, le contrat de niveau de service (SLA) et le processus de support.

Conception pour réduire la pression du débit

Ne faites pas de l’augmentation du débit votre premier réflexe de conception. Tout d’abord, passez en revue la conception de l’agent et optimisez l’efficacité. Si l’agent doit effectuer une recherche, veillez à ce que les appels externes restent ciblés, optimisez les appels d’API et évitez tout volume de requêtes inutile dans l’ensemble de Copilot Studio, Power Automate, Dataverse, des connecteurs et des systèmes en aval.

Une fois la conception efficace, contrôlez le débit afin que le trafic atteigne la plateforme de manière prévisible :

  • Pour les limites au niveau de l’environnement, envisagez de fractionner des agents entre plusieurs environnements si cette approche correspond à votre conception opérationnelle. Cette approche peut aider à empêcher les agents en volume élevé, les unités commerciales, les régions ou les charges de travail autonomes de concurrencer les charges de travail non liées pour les mêmes limites délimitées par l’environnement.
  • Pour les agents autonomes, utilisez des files d’attente, le traitement par lots, des filtres de déclenchement, un traitement planifié, des mécanismes de nouvelle tentative et une supervision afin que le travail en arrière-plan n’arrive pas sous forme de pic incontrôlé.
  • Déplacez, dans la mesure du possible, les tâches planifiées, de création de rapports, d’exportation d’audit et de télémétrie hors du flux de conversation interactif.
  • Passez en revue les résultats des tests de charge et les données de télémétrie de production pour identifier où les requêtes se concentrent, puis paramétrez l’agent, les flux, les connecteurs et les API en aval avant de demander des limites plus élevées.

Les agents autonomes sont positionnés de manière unique pour optimiser l’utilisation de leur capacité allouée avec une prévisibilité et une observabilité robustes en mettant en file d’attente les demandes et en contrôlant leurs taux de déclenchement.

Que faire si les limites de taux par défaut ne sont pas suffisantes

Si l’estimation du trafic maximal indique que l’agent ou tout service connecté peut dépasser les limites publiées actuelles, démarrez le processus de prise en charge du provisionnement des débits avant le lancement de l’UAT, du test de charge ou de la production. N’attendez pas la première défaillance de production.

Note

Copilot Studio est un service SaaS avec des limites de débit en place pour protéger le service pour tous les clients. Avec une justification appropriée, l’ingénierie peut activer des limites personnalisées pour les scénarios approuvés.

Ouverture d’une demande de support

Les administrateurs peuvent demander un support auprès du Centre d’administration Power Platform.

Ouvrez le ticket tôt et incluez les meilleures estimations disponibles. Plus vous fournissez de détails, plus le processus de révision sera facile. Mettez à jour la demande au fur et à mesure que la conception est affinée ou que le test de charge fournit des données observées.

Informations de base à inclure

Informations Description
ID environnement Environnement Dataverse dans lequel l’agent s’exécute.
Nom ou identificateur de l’agent Agent affecté par la requête.
Impact sur l’entreprise Impact critique si les limites par défaut ne sont pas suffisantes.
Informations connues Ce qui est connu sur le scénario, le canal, le contexte de lancement, la critique métier et s’il s’agit de B2C, autonome, côté employé ou interne uniquement.
Capture instantanée de l’agent Capture instantanée ou exportation qui permet aux réviseurs de comprendre la configuration de l’agent, la conception, les services connectés et les paramètres pertinents.
Conception de l’agent Description générale des rubriques, de l’utilisation de l’IA générative, des sources de connaissances, des actions, des flux, des connecteurs, des appels Dataverse et des API externes utilisées par l’agent.
Estimation moyenne du trafic Trafic moyen attendu par heure, jour, semaine ou mois.
Estimation du trafic maximal Le nombre maximal attendu de messages, de sessions, d’appels d’IA générative, d’actions de flux, d’appels de connecteur, de requêtes Dataverse et d’appels d’API externes, lorsqu’ils sont connus.

Plus d’informations qui peuvent vous aider

Informations Description
Plage de dates Date de début et de fin de l’augmentation demandée. Séparez les périodes des tests de charge, des tests d’acceptation utilisateur et de la production si elles diffèrent.
Motif de crête Périodes de pointe, fuseaux horaires, facteurs de pics de charge attendus et concentration éventuelle du trafic sur une courte plage quotidienne.
Profil de session Sessions simultanées, durée moyenne et maximale de session, messages par session et questions par session.
Exemples de session classiques Chemins d’accès utilisateur représentatifs, étapes classiques effectuées, outils utilisés et exemples d’ID de session, le cas échéant.
Chemin d’exécution Flux, actions, invites d’IA, appels à la base de connaissances, requêtes Dataverse, connecteurs et API par interaction.
Pics de charge par fonctionnalité Volume maximal par agent, fonctionnalité, utilisateur, environnement, connecteur, minute, heure et jour où il est connu.
Produits nécessitant une révision Que la requête concerne Copilot Studio, les allocations de requêtes Power Platform, Power Automate, les connecteurs, Dataverse, les services CLU/IA ou des API externes.
Preuve Exemples d’ID de session, d’erreurs, d’ID de corrélation, de journaux, de résultats de tests de charge ou d’observations en production.
Mesures d’atténuation Résumez ce que vous avez déjà essayé pour réduire la pression sur le débit. Consultez les recommandations Concevoir pour réduire la pression sur le débit, notamment la revue de conception, l’optimisation des appels externes, la segmentation des environnements, le traitement par lots, la mise en file d’attente, le filtrage des déclencheurs, la planification, la répartition de la charge de travail et d’autres optimisations déjà en place.

Important

Une augmentation du débit n’est pas garantie. Support Microsoft examine les demandes en fonction du scénario, de l’environnement, de la plage de dates demandée, du trafic attendu, de l’éligibilité, des limites actuelles et de la capacité de service.