Configurer des agents vocaux en temps réel

[Cet article fait partie de la documentation en version préliminaire et peut faire l’objet de modifications.]

Configurez un agent vocal en temps réel en activant la voix en temps réel, en définissant les options principales, puis en configurant des fonctionnalités telles que les rubriques, la prise en charge multilingue, DTMF et la détection de silence.

Configurer et activer la voix en temps réel

  1. Créez un agent et configurez ses détails de base, tels qu’un nom descriptif et l’objectif de l’agent dans la description.

  2. Accédez aux paramètres vocaux de l’agent et activez Activer la voix, puis, dans Le type Voix, sélectionnez Voix en temps réel. Découvrez plus en détail comment gérer la parole.

    Important

    Il s’agit d’une sélection ponctuelle. Après avoir sélectionné la voix en temps réel, vous ne pouvez pas revenir à la voix de base. Pour utiliser la voix de base, créez un agent.

    Capture d’écran des paramètres d’un agent, mettant en évidence le paramètre vocal en temps réel.

  3. Accédez aux paramètres de sécurité de l’agent et sélectionnez Aucune authentification.

Connaissances et outils

Vous pouvez configurer votre agent pour utiliser les connaissances et les outils. Pour en savoir plus sur le résumé des sources de connaissances, ajoutez des outils aux agents personnalisés et outils, connaissances, MCP et API.

Assistants imbriqués (version préliminaire)

Les agents vocaux en temps réel prennent uniquement en charge les agents enfants.

Important

Vérifiez que les descriptions de l’agent enfant ne chevauchent pas les descriptions des rubriques. Définissez explicitement l’ordre d’appel dans les instructions de l’agent.

Rubriques

Les agents vocaux en temps réel prennent en charge toutes les rubriques configurées dans Copilot Studio. Utilisez des rubriques pour définir des comportements déterministes tels que les messages d’accueil, les règles d’entreprise et l’escalade, tandis que le modèle vocal en temps réel gère les réponses conversationnelles au moment de l’exécution. Apprenez-en davantage dans Choisir comment contrôler la conversation.

Meilleures pratiques lors de l’utilisation de rubriques avec des agents vocaux en temps réel

  • Utilisez des rubriques uniquement lorsque le comportement déterministe est requis.

  • Utilisez du texte statique dans les messages d’accueil pour la première réponse la plus rapide. Les messages dynamiques avec des variables et des expressions augmentent la latence initiale.

  • Le démarrage de la conversation est activé par défaut. Si vous souhaitez que le modèle vocal en temps réel gère le message d’accueil, désactivez la rubrique Démarrer de la conversation ; sinon, le message d’accueil configuré dans la rubrique Démarrer de conversation est lu au lieu du message d’accueil du modèle vocal.

  • Laissez le modèle vocal en temps réel gérer les questions générales de conversation et de suivi.

  • La rubrique Sur erreur doit inclure une action explicite, telle que le transfert ou la fin de l'appel. La gestion des erreurs de message uniquement n’est pas suffisante. Sans étape suivante déterministe, les clients peuvent rencontrer le silence ou les appels bloqués, ce qui entraîne une confusion et des expériences vocales médiocres.

  • Utilisez des descriptions explicites de rubriques et d’outils pour déclarer la propriété de la collecte de données. Apprenez-en davantage dans Écrire des descriptions efficaces de rubriques et d’outils.

Support du nœud de la rubrique

La liste suivante décrit la prise en charge des sujets dans le contexte des agents vocaux fonctionnant en temps réel :

Nœud Condition

Fonctionnalité Support
Branchement conditionnel If/Else Pris en charge
Expression Power Fx Pris en charge
Retraitement de remplissage des variables Pris en charge

Nœud de message

Fonctionnalité Support
Message de base Pris en charge
Variantes de message Soutenu
Insertion de variable Soutenu
SSML Pris en charge
Cartes multimédias enrichies/cartes adaptatives Non applicable
Réponses rapides Non applicable

Nœud de question

Fonctionnalité Support
Texte d’invite Soutenu
Mise en attente automatique Non pris en charge
Remplissage d’emplacement Soutenu
Comportement de saut / Remplissage glouton des variables Soutenu
Redemander / Réessayer Soutenu
Gestion des réponses non valide Soutenu
Interruption de sujet Soutenu
Interruption Soutenu
Message de reprompt personnalisé Soutenu
Saisie DTMF Soutenu
Détection du silence Soutenu

Nœud HTTP

Fonctionnalité Support
Méthodes HTTP : GET, POST, PUT, PATCH, DELETE Pris en charge
Points de terminaison d’URL Pris en charge
En-têtes et charges utiles Pris en charge
Analyse et schéma de réponse Pris en charge
Mappage des variables Pris en charge
Gestion des erreurs Pris en charge

Nœud d'outil

Fonctionnalité Support
Flux Power Automate Soutenu
Appel d’outil Soutenu
Mappage d’entrée/sortie Soutenu
Nouvelle invite Soutenu

Nœud Définir la valeur de la variable

Fonctionnalité Support
Affectation littérale Pris en charge
Affectation d’expression Pris en charge
D'une variable à une autre Pris en charge

Nœud de gestion des rubriques

Fonctionnalité Support
Fin de la rubrique actuelle Pris en charge
Terminer toutes les rubriques Pris en charge
Terminer la conversation Pris en charge
Passer à l’étape Pris en charge
Entrée utilisateur pour la reconnaissance d'intention Pris en charge
Accéder à une autre rubrique Pris en charge

Transférer le nœud de conversation

Fonctionnalité Support
Transférer à l’agent Pris en charge
Transfert de numéros de téléphone externes Pris en charge

Avancé

Fonctionnalité Support
Créer des réponses génératives Pris en charge

Support du déclencheur système

Déclencheur Support Détails
Au démarrage de la conversation Soutenu Se déclenche lorsqu’une nouvelle conversation commence
Parler à un représentant Soutenu Transferts vers l’agent humain
Sujet inconnu/Sur intention inconnue Non pris en charge Option par défaut quand aucune rubrique ne correspond
OnSelectIntent (plusieurs rubriques mises en correspondance) Non pris en charge Ambiguïté entre les sujets similaires
Réinitialiser la conversation (OnSystemRedirect) Soutenu Efface les variables et redémarre le flux
Lors de la connexion Non pris en charge
Appui sur une touche DTMF inconnue Soutenu Entrée du pavé numérique non mappée
L’agent choisit / L’utilisateur indique une expression Soutenu L’agent sélectionne la rubrique en fonction de l’intention
Un message est reçu Non pris en charge Augmente la latence
Un événement client personnalisé se produit Non pris en charge Uniquement au démarrage de la session
Mise à jour de la conversation Non pris en charge Membres ajoutés ou supprimés, modifications de session
Il est invoqué Non pris en charge Nécessite une interface utilisateur synchrone
Il est redirigé Soutenu
L’utilisateur est inactif pendant un certain temps/Détection de silence Soutenu Délai d’expiration pour inactivité de l’utilisateur
Un plan est achevé Non pris en charge
Réponse IA générée Non pris en charge
En cas d’erreur Soutenu Gère les erreurs d’orchestration

Passer des variables entre les rubriques et le modèle de langage

Lorsque vous utilisez des rubriques dans un flux conversationnel hybride, comprendre comment transmettre des variables entre les rubriques et le modèle de langage en temps réel est essentiel pour créer des interactions fiables avec état.

Cette fonctionnalité fonctionne dans le processus suivant :

  • Vous transmettez des variables d’entrée définies sur une rubrique dans la rubrique au moment de l’appel, afin que le modèle de langage puisse fournir des données structurées au flux déterministe.

  • Vous retournez des variables de sortie définies sur une rubrique au modèle de langage à la fin de l’exécution de la rubrique en tant que paires clé-valeur structurées. Le modèle de langage inclut ces sorties dans le contexte de conversation, et vous pouvez y faire référence dans les interventions suivantes.

  • Les sorties d’appel d’outil suivent le même modèle : vous envoyez des sorties au modèle de langage à la fin de l’exécution de l’outil, et elles sont disponibles pour une utilisation ultérieure dans la fenêtre de contexte de conversation.

  • Le modèle de langage est alimenté par le contexte conversationnel, y compris les paires clé-valeur du résultat d’appel d’outil. Toutefois, vous retournez uniquement des variables de sortie explicitement définies en tant que données structurées. Vous pouvez collecter une valeur à l’intérieur d’une rubrique, telle qu’un numéro de compte vérifié. Définissez cette valeur en tant que sortie. Si ce n’est pas le cas, le modèle de langage ne peut pas y accéder. L’agent peut demander à l’appelant de nouveau les mêmes informations ultérieurement.

Pour plus d’informations, consultez Gérer les entrées et sorties de rubrique.

Prise en charge multilingue

Ajoutez toutes les langues secondaires souhaitées. Les chaînes de localisation ne sont pas requises pour les flux en temps réel. Toutefois, pour les messages de rubrique déterministes, vous devez fournir les messages traduits. Pour en savoir plus, consultez Configurer et créer des agents multilingues.

Le modèle en temps réel peut comprendre et répondre dans de nombreuses langues. Toutefois, Microsoft ne valide pas formellement toutes les langues pour la disponibilité générale.

À compter d’avril 2026, les langues suivantes sont officiellement validées :

  • Anglais (États-Unis) (en-US)
  • Espagnol (États-Unis) (es-US)
  • Arabe
  • Portugais (Brésil) (pt-BR)
  • Italien (Italie) (it-IT)
  • Allemand (Allemagne) (de-DE)
  • Néerlandais (Pays-Bas) (nl-NL)
  • Français (Canada) (fr-CA)

Microsoft continue de valider d’autres langues et les ajoute après la fin de la certification. Vous pouvez ajouter n’importe quelle langue prise en charge par Copilot Studio. Toutefois, les langues qui ne sont pas entièrement certifiées pour la qualité au niveau GA doivent être soigneusement testées avant la mise en production.

Important

La fonctionnalité de langage technique n’est pas égale à une langue prise en charge ou certifiée. Si vous envisagez de déployer des agents dans des langues autres que l’anglais, vous devez effectuer des tests approfondis avec des appelants et des flux d’appels réels avant d’aller en direct.

Variables de contexte

Un agent vocal en temps réel prend en charge les variables de contexte qui lui permettent de se comporter plus intelligemment en transportant des informations sur l’appel, l’appelant et la conversation actuelle. Le système fournit automatiquement un ensemble limité d’appels et de contexte de conversation au modèle au moment de l’exécution. Cet ensemble comprend les éléments suivants :

Variable contextuelle Description
ID de canal Identifie le canal de communication utilisé pour l’interaction. Cette identification permet au modèle de comprendre que la conversation se produit sur un canal vocal de discours à discours.
Numéro de téléphone de l’appelant (ANI) Numéro de téléphone d’origine de l’appelant. Le système peut utiliser ces informations pour prendre en charge les scénarios d’identification de l’appelant.
Numéro d’appelé (DNIS) Numéro de téléphone de destination que l’appelant a composé. Ces informations permettent de distinguer le numéro d’entreprise ou le point d’entrée atteint.
ID de conversation Identificateur unique de la session d’appel active. Utilisez cette valeur pour mettre en corrélation et maintenir la continuité au sein d’une conversation unique.
En-têtes SIP Un ensemble de paires clé-valeur d’en-têtes SIP prises en charge associées à l’appel. L’ensemble inclut uniquement des en-têtes pris en charge et non sensibles.
Date actuelle (UTC) La date actuelle en temps universel coordonné (UTC) est fournie au moment de l'exécution pour permettre des réponses sensibles aux dates.
Heure actuelle (UTC) L'heure actuelle en temps universel coordonné (UTC), fournie au moment de l’exécution pour autoriser les réponses tenant compte du temps.

Pour toutes les autres variables de contexte, suivez les étapes décrites dans Configurer des variables de contexte pour les agents.

Voix de l’agent

Sélectionnez la voix utilisée par votre agent en sélectionnant votre agent et accédez à Paramètres>vocaux>Sélectionner la voix. Les agents vocaux en temps réel prennent en charge les voix suivantes :

  • Alliage
  • Cendres
  • Ballade
  • Corail
  • Écho
  • Sage
  • Miroitement
  • Verse
  • Marin
  • Cèdre

Note

  • La voix de l’agent est destinée à votre agent vocal en temps réel et n’est pas celle configurée dans le Centre d’administration du service Copilot.
  • Pour faire correspondre les voix des messages système Dynamics avec votre assistant vocal en temps réel, utilisez uniquement les voix prises en charge suivantes : Alloy, Echo, Shimmer ou Ash.

Sensibilité vocale

La détection d'activité vocale sensible (VAD) détermine quand l'agent doit répondre après que l'appelant a fini de parler.

Comprendre les types de VAD

Les agents vocaux en temps réel prennent en charge deux approches VAD :

Capture d’écran de la boîte de dialogue Sensibilité Vocale.

VAD basé sur le serveur - Basé sur le son (silence)

  • Détecte la fin de la parole en fonction des signaux audio (durée du silence, volume)

  • Répond rapidement une fois que le silence est détecté

  • Comportement déterministe et prévisible

  • Idéal pour les interactions structurées, les réponses courtes, les environnements bruyants

VAD sémantique - Basé sur le contexte de phrase

  • Détermine l’achèvement du tour en fonction de la signification de ce qui a été dit

  • Évalue si l’appelant a terminé sa pensée

  • S’adapte aux pauses naturelles, aux mots de remplissage et aux fins de phrase

  • Idéal pour : interactions conversationnelles, questions complexes, discussions ouvertes

Sélectionner le VAD approprié

Utilisez la fonction VAD basée sur le serveur lorsque toutes les conditions suivantes sont remplies :

  • Les interactions sont structurées (navigation dans le menu de style IVR).

  • Les réponses sont courtes et prévisibles.

  • Le bruit d’arrière-plan est un problème (le VAD sémantique peut attendre trop longtemps).

  • Vous voulez une interaction rapide et fluide.

Utilisez la fonction VAD sémantique lorsque toutes les conditions suivantes sont remplies :

  • Les conversations sont libres et sans limite définie.

  • Les appelants peuvent hésiter ou utiliser des mots de remplissage (« um », « laissez-moi penser... »).

  • Les questions sont complexes (les appelants expliquent les situations).

  • La fluidité naturelle des conversations est priorisée.

Configurer un VAD basé sur le serveur

Accédez à Paramètres>Voix>Configuration Téléphone>Entrée vocale>Sensibilité>Basé sur le son (silence).

Capture d’écran de la boîte de dialogue de sensibilité vocale lorsque la valeur est basée sur le silence (son).

Paramètre Description Par défaut Plage recommandée
Seuil Sensibilité à la voix et au bruit (échelle 0-1) 0,6 0.5-0.7
Remplissage de préfixes (ms) Audio capturé avant le début de la parole 300 ms 200-500 ms
Durée du silence (ms) Silence requis pour terminer le tour 750 ms 750-1000 ms

Seuil

  • Inférieur (0,3-0,4) : plus sensible ; récupère la parole silencieuse, peut déclencher le bruit d’arrière-plan.

  • Plus élevé (0,7-0,9) : moins sensible ; nécessite une voix plus forte, réduit les faux déclencheurs.

  • Recommandé : Démarrer avec la version 0.5 ; augmentez si le bruit d’arrière-plan provoque des déclencheurs faux.

Ajout de préfixes

  • Capture l’audio avant la détection vocale (empêche la suppression du premier mot).

  • Inférieur (200 ms) : réponse plus rapide ; peut manquer la première syllabe.

  • Plus élevé (500 ms) : capture plus sûre ; léger retard.

  • Recommandé : 300 ms (bon équilibre).

Durée du silence

  • Durée pendant laquelle l’appelant doit être silencieux avant que l’agent ne réponde.

  • Plus faible (500 ms) : prise de parole rapide ; peut interrompre si l’appelant fait une pause en cours de phrase.

  • Plus élevé (1000 ms) : plus patient ; peut sembler lent.

  • Recommandé : commencez par 750 ms.

Configurer le VAD sémantique

Accédez à Paramètres>Voix>Configuration du téléphone>Entrée vocale>Sensibilité>En fonction du contexte de la phrase.

Capture d’écran de la boîte de dialogue Sensibilité vocale lorsque la valeur est réglée en fonction du contexte de la phrase.

Paramètre : promptitude (vitesse à laquelle l’agent répond après la complétion sémantique)

Réglage Behavior Idéal pour
Faible Attend plus longtemps, très patient Appelants qui pensent à haute voix, des pauses fréquentes
Moyenne Équilibré (par défaut) Conversations générales
Élevé Répond rapidement Interactions rapides, questions simples

Configuration DTMF

Dual-Tone Multi-Fréquence (DTMF) permet aux appelants de composer des informations à l’aide de leur clavier du téléphone.

Vous pouvez activer DTMF pour votre agent à la fois au niveau du sujet et au niveau global. Pour le définir au niveau global, sélectionnez votre agent et accédez à Paramètres>Vocale>Comportement de conversation>DTMF.

Pour la définir par nœud de rubrique, consultez Activer la prise en charge DTMF pour votre assistant vocal.

Pour assurer la fiabilité de la complétion d'entrée, vous pouvez configurer le chronométrage et le comportement de terminaison DTMF. Cette configuration inclut un délai d’expiration inter-chiffres, qui définit la durée pendant laquelle le système attend entre les appuis de touches et un caractère d’arrêt facultatif (tel que # ou *) qui signale explicitement la fin de l’entrée. Lorsque vous utilisez un caractère d’arrêt, le système traite immédiatement les entrées sans attendre un délai d’expiration.

Détection du silence

La détection de silence permet aux agents vocaux en temps réel de reconnaître lorsqu’un appelant ne fournit aucune entrée pour une période spécifiée. Configurez la détection de silence comme paramètre vocal global pour l’agent en accédant à Paramètres>Voix>Comportement de conversation>Détection de silence.

Le minuteur de silence démarre lorsque l’agent termine de parler et ne détecte aucune entrée vocale ou DTMF de l’appelant. Si le délai d’expiration du silence est atteint, l’agent suit la rubrique de détection de silence configurée.

Important

  • La détection du silence n’est pas activée par défaut. Si l’utilisateur ne parle pas, l’agent attend indéfiniment sans donner de consigne. Activez explicitement la détection du silence et configurez un message de repromptage pour gérer les appelants silencieux.

  • Le délai d’expiration de détection du silence par défaut est de 7 000 ms (7 secondes). Validez cette valeur par rapport à votre cas d’usage spécifique et à votre environnement d’appelant avant le déploiement en production. Sept secondes peuvent être trop longues pour certains appelants ou trop court pour d’autres en fonction de la nature de l’interaction, par exemple, des questions complexes ou des environnements bruyants. Testez avec des données d’appel réelles pour déterminer le seuil approprié pour votre scénario.

  • Avant d’activer la détection du silence, assurez-vous que le comportement que vous configurez dans votre rubrique de détection du silence (par exemple, Escalader, Raccrocher, Redemander) est intentionnel et adapté à votre cas d’utilisation. Un comportement de repli mal configuré, comme définir par inadvertance le repli sur Escalader alors que l’intention est de raccrocher, ou inversement, peut entraîner des résultats d’appel inattendus.

Messagerie de latence

Ajoutez un message de latence ou de la musique à votre agent lorsque les opérations en arrière-plan prennent plus de temps que prévu. Pour configurer la messagerie de latence, accédez à Paramètres>Voix>Comportement de la conversation>Messagerie de latence.

Capture d’écran de la boîte de dialogue Messagerie de latence.

Évaluation en temps réel de l'agent vocal (aperçu)

Les agents vocaux en temps réel prennent en charge l’envoi de texte pendant l’évaluation, mais le traitement audio n’est pas pris en charge.