Configurer des agents vocaux en temps réel

[Cet article fait partie de la documentation en version préliminaire et peut faire l’objet de modifications.]

Configurez un agent vocal en temps réel en activant la voix en temps réel, en définissant les options principales, puis en configurant des fonctionnalités telles que les rubriques, la prise en charge multilingue, DTMF et la détection de silence.

Configurer et activer la voix en temps réel

Créez un agent et configurez ses détails de base, tels qu’un nom descriptif et l’objectif de l’agent dans la description.
Accédez aux paramètres vocaux de l’agent et activez Activer la voix, puis, dans Le type Voix, sélectionnez Voix en temps réel. Découvrez plus en détail comment gérer la parole.

Important

Il s’agit d’une sélection ponctuelle. Après avoir sélectionné la voix en temps réel, vous ne pouvez pas revenir à la voix de base. Pour utiliser la voix de base, créez un agent.
Accédez aux paramètres de sécurité de l’agent et sélectionnez Aucune authentification.

Connaissances et outils

Vous pouvez configurer votre agent pour utiliser les connaissances et les outils. Pour en savoir plus sur le résumé des sources de connaissances, ajoutez des outils aux agents personnalisés et outils, connaissances, MCP et API.

Assistants imbriqués (version préliminaire)

Les agents vocaux en temps réel prennent uniquement en charge les agents enfants.

Important

Vérifiez que les descriptions de l’agent enfant ne chevauchent pas les descriptions des rubriques. Définissez explicitement l’ordre d’appel dans les instructions de l’agent.

Rubriques

Les agents vocaux en temps réel prennent en charge toutes les rubriques configurées dans Copilot Studio. Utilisez des rubriques pour définir des comportements déterministes tels que les messages d’accueil, les règles d’entreprise et l’escalade, tandis que le modèle vocal en temps réel gère les réponses conversationnelles au moment de l’exécution. Apprenez-en davantage dans Choisir comment contrôler la conversation.

Meilleures pratiques lors de l’utilisation de rubriques avec des agents vocaux en temps réel

Utilisez des rubriques uniquement lorsque le comportement déterministe est requis.
Utilisez du texte statique dans les messages d’accueil pour la première réponse la plus rapide. Les messages dynamiques avec des variables et des expressions augmentent la latence initiale.
Le démarrage de la conversation est activé par défaut. Si vous souhaitez que le modèle vocal en temps réel gère le message d’accueil, désactivez la rubrique Démarrer de la conversation ; sinon, le message d’accueil configuré dans la rubrique Démarrer de conversation est lu au lieu du message d’accueil du modèle vocal.
Laissez le modèle vocal en temps réel gérer les questions générales de conversation et de suivi.
La rubrique Sur erreur doit inclure une action explicite, telle que le transfert ou la fin de l'appel. La gestion des erreurs de message uniquement n’est pas suffisante. Sans étape suivante déterministe, les clients peuvent rencontrer le silence ou les appels bloqués, ce qui entraîne une confusion et des expériences vocales médiocres.
Utilisez des descriptions explicites de rubriques et d’outils pour déclarer la propriété de la collecte de données. Apprenez-en davantage dans Écrire des descriptions efficaces de rubriques et d’outils.

Support du nœud de la rubrique

La liste suivante décrit la prise en charge des sujets dans le contexte des agents vocaux fonctionnant en temps réel :

Nœud Condition

Fonctionnalité	Support
Branchement conditionnel If/Else	Pris en charge
Expression Power Fx	Pris en charge
Retraitement de remplissage des variables	Pris en charge

Nœud de message

Fonctionnalité	Support
Message de base	Pris en charge
Variantes de message	Soutenu
Insertion de variable	Soutenu
SSML	Pris en charge
Cartes multimédias enrichies/cartes adaptatives	Non applicable
Réponses rapides	Non applicable

Nœud de question

Fonctionnalité	Support
Texte d’invite	Soutenu
Mise en attente automatique	Non pris en charge
Remplissage d’emplacement	Soutenu
Comportement de saut / Remplissage glouton des variables	Soutenu
Redemander / Réessayer	Soutenu
Gestion des réponses non valide	Soutenu
Interruption de sujet	Soutenu
Interruption	Soutenu
Message de reprompt personnalisé	Soutenu
Saisie DTMF	Soutenu
Détection du silence	Soutenu

Nœud HTTP

Fonctionnalité	Support
Méthodes HTTP : GET, POST, PUT, PATCH, DELETE	Pris en charge
Points de terminaison d’URL	Pris en charge
En-têtes et charges utiles	Pris en charge
Analyse et schéma de réponse	Pris en charge
Mappage des variables	Pris en charge
Gestion des erreurs	Pris en charge

Nœud d'outil

Fonctionnalité	Support
Flux Power Automate	Soutenu
Appel d’outil	Soutenu
Mappage d’entrée/sortie	Soutenu
Nouvelle invite	Soutenu

Nœud Définir la valeur de la variable

Fonctionnalité	Support
Affectation littérale	Pris en charge
Affectation d’expression	Pris en charge
D'une variable à une autre	Pris en charge

Nœud de gestion des rubriques

Fonctionnalité	Support
Fin de la rubrique actuelle	Pris en charge
Terminer toutes les rubriques	Pris en charge
Terminer la conversation	Pris en charge
Passer à l’étape	Pris en charge
Entrée utilisateur pour la reconnaissance d'intention	Pris en charge
Accéder à une autre rubrique	Pris en charge

Transférer le nœud de conversation

Fonctionnalité	Support
Transférer à l’agent	Pris en charge
Transfert de numéros de téléphone externes	Pris en charge

Avancé

Fonctionnalité	Support
Créer des réponses génératives	Pris en charge

Support du déclencheur système

Déclencheur	Support	Détails
Au démarrage de la conversation	Soutenu	Se déclenche lorsqu’une nouvelle conversation commence
Parler à un représentant	Soutenu	Transferts vers l’agent humain
Sujet inconnu/Sur intention inconnue	Non pris en charge	Option par défaut quand aucune rubrique ne correspond
OnSelectIntent (plusieurs rubriques mises en correspondance)	Non pris en charge	Ambiguïté entre les sujets similaires
Réinitialiser la conversation (OnSystemRedirect)	Soutenu	Efface les variables et redémarre le flux
Lors de la connexion	Non pris en charge
Appui sur une touche DTMF inconnue	Soutenu	Entrée du pavé numérique non mappée
L’agent choisit / L’utilisateur indique une expression	Soutenu	L’agent sélectionne la rubrique en fonction de l’intention
Un message est reçu	Non pris en charge	Augmente la latence
Un événement client personnalisé se produit	Non pris en charge	Uniquement au démarrage de la session
Mise à jour de la conversation	Non pris en charge	Membres ajoutés ou supprimés, modifications de session
Il est invoqué	Non pris en charge	Nécessite une interface utilisateur synchrone
Il est redirigé	Soutenu
L’utilisateur est inactif pendant un certain temps/Détection de silence	Soutenu	Délai d’expiration pour inactivité de l’utilisateur
Un plan est achevé	Non pris en charge
Réponse IA générée	Non pris en charge
En cas d’erreur	Soutenu	Gère les erreurs d’orchestration

Passer des variables entre les rubriques et le modèle de langage

Lorsque vous utilisez des rubriques dans un flux conversationnel hybride, comprendre comment transmettre des variables entre les rubriques et le modèle de langage en temps réel est essentiel pour créer des interactions fiables avec état.

Cette fonctionnalité fonctionne dans le processus suivant :

Vous transmettez des variables d’entrée définies sur une rubrique dans la rubrique au moment de l’appel, afin que le modèle de langage puisse fournir des données structurées au flux déterministe.
Vous retournez des variables de sortie définies sur une rubrique au modèle de langage à la fin de l’exécution de la rubrique en tant que paires clé-valeur structurées. Le modèle de langage inclut ces sorties dans le contexte de conversation, et vous pouvez y faire référence dans les interventions suivantes.
Les sorties d’appel d’outil suivent le même modèle : vous envoyez des sorties au modèle de langage à la fin de l’exécution de l’outil, et elles sont disponibles pour une utilisation ultérieure dans la fenêtre de contexte de conversation.
Le modèle de langage est alimenté par le contexte conversationnel, y compris les paires clé-valeur du résultat d’appel d’outil. Toutefois, vous retournez uniquement des variables de sortie explicitement définies en tant que données structurées. Vous pouvez collecter une valeur à l’intérieur d’une rubrique, telle qu’un numéro de compte vérifié. Définissez cette valeur en tant que sortie. Si ce n’est pas le cas, le modèle de langage ne peut pas y accéder. L’agent peut demander à l’appelant de nouveau les mêmes informations ultérieurement.

Pour plus d’informations, consultez Gérer les entrées et sorties de rubrique.

Prise en charge multilingue

Ajoutez toutes les langues secondaires souhaitées. Les chaînes de localisation ne sont pas requises pour les flux en temps réel. Toutefois, pour les messages de rubrique déterministes, vous devez fournir les messages traduits. Pour en savoir plus, consultez Configurer et créer des agents multilingues.

Le modèle en temps réel peut comprendre et répondre dans de nombreuses langues. Toutefois, Microsoft ne valide pas formellement toutes les langues pour la disponibilité générale.

À compter d’avril 2026, les langues suivantes sont officiellement validées :

Anglais (États-Unis) (en-US)
Espagnol (États-Unis) (es-US)
Arabe
Portugais (Brésil) (pt-BR)
Italien (Italie) (it-IT)
Allemand (Allemagne) (de-DE)
Néerlandais (Pays-Bas) (nl-NL)
Français (Canada) (fr-CA)

Microsoft continue de valider d’autres langues et les ajoute après la fin de la certification. Vous pouvez ajouter n’importe quelle langue prise en charge par Copilot Studio. Toutefois, les langues qui ne sont pas entièrement certifiées pour la qualité au niveau GA doivent être soigneusement testées avant la mise en production.

Important

La fonctionnalité de langage technique n’est pas égale à une langue prise en charge ou certifiée. Si vous envisagez de déployer des agents dans des langues autres que l’anglais, vous devez effectuer des tests approfondis avec des appelants et des flux d’appels réels avant d’aller en direct.

Variables de contexte

Un agent vocal en temps réel prend en charge les variables de contexte qui lui permettent de se comporter plus intelligemment en transportant des informations sur l’appel, l’appelant et la conversation actuelle. Le système fournit automatiquement un ensemble limité d’appels et de contexte de conversation au modèle au moment de l’exécution. Cet ensemble comprend les éléments suivants :

Variable contextuelle	Description
ID de canal	Identifie le canal de communication utilisé pour l’interaction. Cette identification permet au modèle de comprendre que la conversation se produit sur un canal vocal de discours à discours.
Numéro de téléphone de l’appelant (ANI)	Numéro de téléphone d’origine de l’appelant. Le système peut utiliser ces informations pour prendre en charge les scénarios d’identification de l’appelant.
Numéro d’appelé (DNIS)	Numéro de téléphone de destination que l’appelant a composé. Ces informations permettent de distinguer le numéro d’entreprise ou le point d’entrée atteint.
ID de conversation	Identificateur unique de la session d’appel active. Utilisez cette valeur pour mettre en corrélation et maintenir la continuité au sein d’une conversation unique.
En-têtes SIP	Un ensemble de paires clé-valeur d’en-têtes SIP prises en charge associées à l’appel. L’ensemble inclut uniquement des en-têtes pris en charge et non sensibles.
Date actuelle (UTC)	La date actuelle en temps universel coordonné (UTC) est fournie au moment de l'exécution pour permettre des réponses sensibles aux dates.
Heure actuelle (UTC)	L'heure actuelle en temps universel coordonné (UTC), fournie au moment de l’exécution pour autoriser les réponses tenant compte du temps.

Pour toutes les autres variables de contexte, suivez les étapes décrites dans Configurer des variables de contexte pour les agents.

Voix de l’agent

Sélectionnez la voix utilisée par votre agent en sélectionnant votre agent et accédez à Paramètres>vocaux>Sélectionner la voix. Les agents vocaux en temps réel prennent en charge les voix suivantes :

Alliage
Cendres
Ballade
Corail
Écho
Sage
Miroitement
Verse
Marin
Cèdre

Note

La voix de l’agent est destinée à votre agent vocal en temps réel et n’est pas celle configurée dans le Centre d’administration du service Copilot.
Pour faire correspondre les voix des messages système Dynamics avec votre assistant vocal en temps réel, utilisez uniquement les voix prises en charge suivantes : Alloy, Echo, Shimmer ou Ash.

Sensibilité vocale

La détection d'activité vocale sensible (VAD) détermine quand l'agent doit répondre après que l'appelant a fini de parler.

Comprendre les types de VAD

Les agents vocaux en temps réel prennent en charge deux approches VAD :

Capture d’écran de la boîte de dialogue Sensibilité Vocale.

VAD basé sur le serveur - Basé sur le son (silence)

Détecte la fin de la parole en fonction des signaux audio (durée du silence, volume)
Répond rapidement une fois que le silence est détecté
Comportement déterministe et prévisible
Idéal pour les interactions structurées, les réponses courtes, les environnements bruyants

VAD sémantique - Basé sur le contexte de phrase

Détermine l’achèvement du tour en fonction de la signification de ce qui a été dit
Évalue si l’appelant a terminé sa pensée
S’adapte aux pauses naturelles, aux mots de remplissage et aux fins de phrase
Idéal pour : interactions conversationnelles, questions complexes, discussions ouvertes

Sélectionner le VAD approprié

Utilisez la fonction VAD basée sur le serveur lorsque toutes les conditions suivantes sont remplies :

Les interactions sont structurées (navigation dans le menu de style IVR).
Les réponses sont courtes et prévisibles.
Le bruit d’arrière-plan est un problème (le VAD sémantique peut attendre trop longtemps).
Vous voulez une interaction rapide et fluide.

Utilisez la fonction VAD sémantique lorsque toutes les conditions suivantes sont remplies :

Les conversations sont libres et sans limite définie.
Les appelants peuvent hésiter ou utiliser des mots de remplissage (« um », « laissez-moi penser... »).
Les questions sont complexes (les appelants expliquent les situations).
La fluidité naturelle des conversations est priorisée.

Configurer un VAD basé sur le serveur

Accédez à Paramètres>Voix>Configuration Téléphone>Entrée vocale>Sensibilité>Basé sur le son (silence).

Capture d’écran de la boîte de dialogue de sensibilité vocale lorsque la valeur est basée sur le silence (son).

Paramètre	Description	Par défaut	Plage recommandée
Seuil	Sensibilité à la voix et au bruit (échelle 0-1)	0,6	0.5-0.7
Remplissage de préfixes (ms)	Audio capturé avant le début de la parole	300 ms	200-500 ms
Durée du silence (ms)	Silence requis pour terminer le tour	750 ms	750-1000 ms

Seuil

Inférieur (0,3-0,4) : plus sensible ; récupère la parole silencieuse, peut déclencher le bruit d’arrière-plan.
Plus élevé (0,7-0,9) : moins sensible ; nécessite une voix plus forte, réduit les faux déclencheurs.
Recommandé : Démarrer avec la version 0.5 ; augmentez si le bruit d’arrière-plan provoque des déclencheurs faux.

Ajout de préfixes

Capture l’audio avant la détection vocale (empêche la suppression du premier mot).
Inférieur (200 ms) : réponse plus rapide ; peut manquer la première syllabe.
Plus élevé (500 ms) : capture plus sûre ; léger retard.
Recommandé : 300 ms (bon équilibre).

Durée du silence

Durée pendant laquelle l’appelant doit être silencieux avant que l’agent ne réponde.
Plus faible (500 ms) : prise de parole rapide ; peut interrompre si l’appelant fait une pause en cours de phrase.
Plus élevé (1000 ms) : plus patient ; peut sembler lent.
Recommandé : commencez par 750 ms.

Configurer le VAD sémantique

Accédez à Paramètres>Voix>Configuration du téléphone>Entrée vocale>Sensibilité>En fonction du contexte de la phrase.

Capture d’écran de la boîte de dialogue Sensibilité vocale lorsque la valeur est réglée en fonction du contexte de la phrase.

Paramètre : promptitude (vitesse à laquelle l’agent répond après la complétion sémantique)

Réglage	Behavior	Idéal pour
Faible	Attend plus longtemps, très patient	Appelants qui pensent à haute voix, des pauses fréquentes
Moyenne	Équilibré (par défaut)	Conversations générales
Élevé	Répond rapidement	Interactions rapides, questions simples

Configuration DTMF

Dual-Tone Multi-Fréquence (DTMF) permet aux appelants de composer des informations à l’aide de leur clavier du téléphone.

Vous pouvez activer DTMF pour votre agent à la fois au niveau du sujet et au niveau global. Pour le définir au niveau global, sélectionnez votre agent et accédez à Paramètres>Vocale>Comportement de conversation>DTMF.

Pour la définir par nœud de rubrique, consultez Activer la prise en charge DTMF pour votre assistant vocal.

Pour assurer la fiabilité de la complétion d'entrée, vous pouvez configurer le chronométrage et le comportement de terminaison DTMF. Cette configuration inclut un délai d’expiration inter-chiffres, qui définit la durée pendant laquelle le système attend entre les appuis de touches et un caractère d’arrêt facultatif (tel que # ou *) qui signale explicitement la fin de l’entrée. Lorsque vous utilisez un caractère d’arrêt, le système traite immédiatement les entrées sans attendre un délai d’expiration.

Détection du silence

La détection de silence permet aux agents vocaux en temps réel de reconnaître lorsqu’un appelant ne fournit aucune entrée pour une période spécifiée. Configurez la détection de silence comme paramètre vocal global pour l’agent en accédant à Paramètres>Voix>Comportement de conversation>Détection de silence.

Le minuteur de silence démarre lorsque l’agent termine de parler et ne détecte aucune entrée vocale ou DTMF de l’appelant. Si le délai d’expiration du silence est atteint, l’agent suit la rubrique de détection de silence configurée.

Important

La détection du silence n’est pas activée par défaut. Si l’utilisateur ne parle pas, l’agent attend indéfiniment sans donner de consigne. Activez explicitement la détection du silence et configurez un message de repromptage pour gérer les appelants silencieux.
Le délai d’expiration de détection du silence par défaut est de 7 000 ms (7 secondes). Validez cette valeur par rapport à votre cas d’usage spécifique et à votre environnement d’appelant avant le déploiement en production. Sept secondes peuvent être trop longues pour certains appelants ou trop court pour d’autres en fonction de la nature de l’interaction, par exemple, des questions complexes ou des environnements bruyants. Testez avec des données d’appel réelles pour déterminer le seuil approprié pour votre scénario.
Avant d’activer la détection du silence, assurez-vous que le comportement que vous configurez dans votre rubrique de détection du silence (par exemple, Escalader, Raccrocher, Redemander) est intentionnel et adapté à votre cas d’utilisation. Un comportement de repli mal configuré, comme définir par inadvertance le repli sur Escalader alors que l’intention est de raccrocher, ou inversement, peut entraîner des résultats d’appel inattendus.

Messagerie de latence

Ajoutez un message de latence ou de la musique à votre agent lorsque les opérations en arrière-plan prennent plus de temps que prévu. Pour configurer la messagerie de latence, accédez à Paramètres>Voix>Comportement de la conversation>Messagerie de latence.

Évaluation en temps réel de l'agent vocal (aperçu)

Les agents vocaux en temps réel prennent en charge l’envoi de texte pendant l’évaluation, mais le traitement audio n’est pas pris en charge.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-05-19

Configurer des agents vocaux en temps réel

Configurer et activer la voix en temps réel

Connaissances et outils

Assistants imbriqués (version préliminaire)

Rubriques

Meilleures pratiques lors de l’utilisation de rubriques avec des agents vocaux en temps réel

Support du nœud de la rubrique

Nœud Condition

Nœud de message

Nœud de question

Nœud HTTP

Nœud d'outil

Nœud Définir la valeur de la variable

Nœud de gestion des rubriques

Transférer le nœud de conversation

Avancé

Support du déclencheur système

Passer des variables entre les rubriques et le modèle de langage

Prise en charge multilingue

Variables de contexte

Voix de l’agent

Sensibilité vocale

Comprendre les types de VAD

Sélectionner le VAD approprié

Configurer un VAD basé sur le serveur

Seuil

Ajout de préfixes

Durée du silence

Configurer le VAD sémantique

Configuration DTMF

Détection du silence

Messagerie de latence

Évaluation en temps réel de l'agent vocal (aperçu)

Commentaires

Ressources supplémentaires