Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
[Cet article fait partie de la documentation en version préliminaire et peut faire l’objet de modifications.]
Configurez un agent vocal en temps réel en activant la voix en temps réel, en définissant les options principales, puis en configurant des fonctionnalités telles que les rubriques, la prise en charge multilingue, DTMF et la détection de silence.
Configurer et activer la voix en temps réel
Créez un agent et configurez ses détails de base, tels qu’un nom descriptif et l’objectif de l’agent dans la description.
Accédez aux paramètres vocaux de l’agent et activez Activer la voix, puis, dans Le type Voix, sélectionnez Voix en temps réel. Découvrez plus en détail comment gérer la parole.
Important
Il s’agit d’une sélection ponctuelle. Après avoir sélectionné la voix en temps réel, vous ne pouvez pas revenir à la voix de base. Pour utiliser la voix de base, créez un agent.
Accédez aux paramètres de sécurité de l’agent et sélectionnez Aucune authentification.
Connaissances et outils
Vous pouvez configurer votre agent pour utiliser les connaissances et les outils. Pour en savoir plus sur le résumé des sources de connaissances, ajoutez des outils aux agents personnalisés et outils, connaissances, MCP et API.
Assistants imbriqués (version préliminaire)
Les agents vocaux en temps réel prennent uniquement en charge les agents enfants.
Important
Vérifiez que les descriptions de l’agent enfant ne chevauchent pas les descriptions des rubriques. Définissez explicitement l’ordre d’appel dans les instructions de l’agent.
Rubriques
Les agents vocaux en temps réel prennent en charge toutes les rubriques configurées dans Copilot Studio. Utilisez des rubriques pour définir des comportements déterministes tels que les messages d’accueil, les règles d’entreprise et l’escalade, tandis que le modèle vocal en temps réel gère les réponses conversationnelles au moment de l’exécution. Apprenez-en davantage dans Choisir comment contrôler la conversation.
Meilleures pratiques lors de l’utilisation de rubriques avec des agents vocaux en temps réel
Utilisez des rubriques uniquement lorsque le comportement déterministe est requis.
Utilisez du texte statique dans les messages d’accueil pour la première réponse la plus rapide. Les messages dynamiques avec des variables et des expressions augmentent la latence initiale.
Le démarrage de la conversation est activé par défaut. Si vous souhaitez que le modèle vocal en temps réel gère le message d’accueil, désactivez la rubrique Démarrer de la conversation ; sinon, le message d’accueil configuré dans la rubrique Démarrer de conversation est lu au lieu du message d’accueil du modèle vocal.
Laissez le modèle vocal en temps réel gérer les questions générales de conversation et de suivi.
La rubrique Sur erreur doit inclure une action explicite, telle que le transfert ou la fin de l'appel. La gestion des erreurs de message uniquement n’est pas suffisante. Sans étape suivante déterministe, les clients peuvent rencontrer le silence ou les appels bloqués, ce qui entraîne une confusion et des expériences vocales médiocres.
Utilisez des descriptions explicites de rubriques et d’outils pour déclarer la propriété de la collecte de données. Apprenez-en davantage dans Écrire des descriptions efficaces de rubriques et d’outils.
Support du nœud de la rubrique
La liste suivante décrit la prise en charge des sujets dans le contexte des agents vocaux fonctionnant en temps réel :
Nœud Condition
| Fonctionnalité | Support |
|---|---|
| Branchement conditionnel If/Else | Pris en charge |
| Expression Power Fx | Pris en charge |
| Retraitement de remplissage des variables | Pris en charge |
Nœud de message
| Fonctionnalité | Support |
|---|---|
| Message de base | Pris en charge |
| Variantes de message | Soutenu |
| Insertion de variable | Soutenu |
| SSML | Pris en charge |
| Cartes multimédias enrichies/cartes adaptatives | Non applicable |
| Réponses rapides | Non applicable |
Nœud de question
| Fonctionnalité | Support |
|---|---|
| Texte d’invite | Soutenu |
| Mise en attente automatique | Non pris en charge |
| Remplissage d’emplacement | Soutenu |
| Comportement de saut / Remplissage glouton des variables | Soutenu |
| Redemander / Réessayer | Soutenu |
| Gestion des réponses non valide | Soutenu |
| Interruption de sujet | Soutenu |
| Interruption | Soutenu |
| Message de reprompt personnalisé | Soutenu |
| Saisie DTMF | Soutenu |
| Détection du silence | Soutenu |
Nœud HTTP
| Fonctionnalité | Support |
|---|---|
| Méthodes HTTP : GET, POST, PUT, PATCH, DELETE | Pris en charge |
| Points de terminaison d’URL | Pris en charge |
| En-têtes et charges utiles | Pris en charge |
| Analyse et schéma de réponse | Pris en charge |
| Mappage des variables | Pris en charge |
| Gestion des erreurs | Pris en charge |
Nœud d'outil
| Fonctionnalité | Support |
|---|---|
| Flux Power Automate | Soutenu |
| Appel d’outil | Soutenu |
| Mappage d’entrée/sortie | Soutenu |
| Nouvelle invite | Soutenu |
Nœud Définir la valeur de la variable
| Fonctionnalité | Support |
|---|---|
| Affectation littérale | Pris en charge |
| Affectation d’expression | Pris en charge |
| D'une variable à une autre | Pris en charge |
Nœud de gestion des rubriques
| Fonctionnalité | Support |
|---|---|
| Fin de la rubrique actuelle | Pris en charge |
| Terminer toutes les rubriques | Pris en charge |
| Terminer la conversation | Pris en charge |
| Passer à l’étape | Pris en charge |
| Entrée utilisateur pour la reconnaissance d'intention | Pris en charge |
| Accéder à une autre rubrique | Pris en charge |
Transférer le nœud de conversation
| Fonctionnalité | Support |
|---|---|
| Transférer à l’agent | Pris en charge |
| Transfert de numéros de téléphone externes | Pris en charge |
Avancé
| Fonctionnalité | Support |
|---|---|
| Créer des réponses génératives | Pris en charge |
Support du déclencheur système
| Déclencheur | Support | Détails |
|---|---|---|
| Au démarrage de la conversation | Soutenu | Se déclenche lorsqu’une nouvelle conversation commence |
| Parler à un représentant | Soutenu | Transferts vers l’agent humain |
| Sujet inconnu/Sur intention inconnue | Non pris en charge | Option par défaut quand aucune rubrique ne correspond |
| OnSelectIntent (plusieurs rubriques mises en correspondance) | Non pris en charge | Ambiguïté entre les sujets similaires |
| Réinitialiser la conversation (OnSystemRedirect) | Soutenu | Efface les variables et redémarre le flux |
| Lors de la connexion | Non pris en charge | |
| Appui sur une touche DTMF inconnue | Soutenu | Entrée du pavé numérique non mappée |
| L’agent choisit / L’utilisateur indique une expression | Soutenu | L’agent sélectionne la rubrique en fonction de l’intention |
| Un message est reçu | Non pris en charge | Augmente la latence |
| Un événement client personnalisé se produit | Non pris en charge | Uniquement au démarrage de la session |
| Mise à jour de la conversation | Non pris en charge | Membres ajoutés ou supprimés, modifications de session |
| Il est invoqué | Non pris en charge | Nécessite une interface utilisateur synchrone |
| Il est redirigé | Soutenu | |
| L’utilisateur est inactif pendant un certain temps/Détection de silence | Soutenu | Délai d’expiration pour inactivité de l’utilisateur |
| Un plan est achevé | Non pris en charge | |
| Réponse IA générée | Non pris en charge | |
| En cas d’erreur | Soutenu | Gère les erreurs d’orchestration |
Passer des variables entre les rubriques et le modèle de langage
Lorsque vous utilisez des rubriques dans un flux conversationnel hybride, comprendre comment transmettre des variables entre les rubriques et le modèle de langage en temps réel est essentiel pour créer des interactions fiables avec état.
Cette fonctionnalité fonctionne dans le processus suivant :
Vous transmettez des variables d’entrée définies sur une rubrique dans la rubrique au moment de l’appel, afin que le modèle de langage puisse fournir des données structurées au flux déterministe.
Vous retournez des variables de sortie définies sur une rubrique au modèle de langage à la fin de l’exécution de la rubrique en tant que paires clé-valeur structurées. Le modèle de langage inclut ces sorties dans le contexte de conversation, et vous pouvez y faire référence dans les interventions suivantes.
Les sorties d’appel d’outil suivent le même modèle : vous envoyez des sorties au modèle de langage à la fin de l’exécution de l’outil, et elles sont disponibles pour une utilisation ultérieure dans la fenêtre de contexte de conversation.
Le modèle de langage est alimenté par le contexte conversationnel, y compris les paires clé-valeur du résultat d’appel d’outil. Toutefois, vous retournez uniquement des variables de sortie explicitement définies en tant que données structurées. Vous pouvez collecter une valeur à l’intérieur d’une rubrique, telle qu’un numéro de compte vérifié. Définissez cette valeur en tant que sortie. Si ce n’est pas le cas, le modèle de langage ne peut pas y accéder. L’agent peut demander à l’appelant de nouveau les mêmes informations ultérieurement.
Pour plus d’informations, consultez Gérer les entrées et sorties de rubrique.
Prise en charge multilingue
Ajoutez toutes les langues secondaires souhaitées. Les chaînes de localisation ne sont pas requises pour les flux en temps réel. Toutefois, pour les messages de rubrique déterministes, vous devez fournir les messages traduits. Pour en savoir plus, consultez Configurer et créer des agents multilingues.
Le modèle en temps réel peut comprendre et répondre dans de nombreuses langues. Toutefois, Microsoft ne valide pas formellement toutes les langues pour la disponibilité générale.
À compter d’avril 2026, les langues suivantes sont officiellement validées :
- Anglais (États-Unis) (en-US)
- Espagnol (États-Unis) (es-US)
- Arabe
- Portugais (Brésil) (pt-BR)
- Italien (Italie) (it-IT)
- Allemand (Allemagne) (de-DE)
- Néerlandais (Pays-Bas) (nl-NL)
- Français (Canada) (fr-CA)
Microsoft continue de valider d’autres langues et les ajoute après la fin de la certification. Vous pouvez ajouter n’importe quelle langue prise en charge par Copilot Studio. Toutefois, les langues qui ne sont pas entièrement certifiées pour la qualité au niveau GA doivent être soigneusement testées avant la mise en production.
Important
La fonctionnalité de langage technique n’est pas égale à une langue prise en charge ou certifiée. Si vous envisagez de déployer des agents dans des langues autres que l’anglais, vous devez effectuer des tests approfondis avec des appelants et des flux d’appels réels avant d’aller en direct.
Variables de contexte
Un agent vocal en temps réel prend en charge les variables de contexte qui lui permettent de se comporter plus intelligemment en transportant des informations sur l’appel, l’appelant et la conversation actuelle. Le système fournit automatiquement un ensemble limité d’appels et de contexte de conversation au modèle au moment de l’exécution. Cet ensemble comprend les éléments suivants :
| Variable contextuelle | Description |
|---|---|
| ID de canal | Identifie le canal de communication utilisé pour l’interaction. Cette identification permet au modèle de comprendre que la conversation se produit sur un canal vocal de discours à discours. |
| Numéro de téléphone de l’appelant (ANI) | Numéro de téléphone d’origine de l’appelant. Le système peut utiliser ces informations pour prendre en charge les scénarios d’identification de l’appelant. |
| Numéro d’appelé (DNIS) | Numéro de téléphone de destination que l’appelant a composé. Ces informations permettent de distinguer le numéro d’entreprise ou le point d’entrée atteint. |
| ID de conversation | Identificateur unique de la session d’appel active. Utilisez cette valeur pour mettre en corrélation et maintenir la continuité au sein d’une conversation unique. |
| En-têtes SIP | Un ensemble de paires clé-valeur d’en-têtes SIP prises en charge associées à l’appel. L’ensemble inclut uniquement des en-têtes pris en charge et non sensibles. |
| Date actuelle (UTC) | La date actuelle en temps universel coordonné (UTC) est fournie au moment de l'exécution pour permettre des réponses sensibles aux dates. |
| Heure actuelle (UTC) | L'heure actuelle en temps universel coordonné (UTC), fournie au moment de l’exécution pour autoriser les réponses tenant compte du temps. |
Pour toutes les autres variables de contexte, suivez les étapes décrites dans Configurer des variables de contexte pour les agents.
Voix de l’agent
Sélectionnez la voix utilisée par votre agent en sélectionnant votre agent et accédez à Paramètres>vocaux>Sélectionner la voix. Les agents vocaux en temps réel prennent en charge les voix suivantes :
- Alliage
- Cendres
- Ballade
- Corail
- Écho
- Sage
- Miroitement
- Verse
- Marin
- Cèdre
Note
- La voix de l’agent est destinée à votre agent vocal en temps réel et n’est pas celle configurée dans le Centre d’administration du service Copilot.
- Pour faire correspondre les voix des messages système Dynamics avec votre assistant vocal en temps réel, utilisez uniquement les voix prises en charge suivantes : Alloy, Echo, Shimmer ou Ash.
Sensibilité vocale
La détection d'activité vocale sensible (VAD) détermine quand l'agent doit répondre après que l'appelant a fini de parler.
Comprendre les types de VAD
Les agents vocaux en temps réel prennent en charge deux approches VAD :
VAD basé sur le serveur - Basé sur le son (silence)
Détecte la fin de la parole en fonction des signaux audio (durée du silence, volume)
Répond rapidement une fois que le silence est détecté
Comportement déterministe et prévisible
Idéal pour les interactions structurées, les réponses courtes, les environnements bruyants
VAD sémantique - Basé sur le contexte de phrase
Détermine l’achèvement du tour en fonction de la signification de ce qui a été dit
Évalue si l’appelant a terminé sa pensée
S’adapte aux pauses naturelles, aux mots de remplissage et aux fins de phrase
Idéal pour : interactions conversationnelles, questions complexes, discussions ouvertes
Sélectionner le VAD approprié
Utilisez la fonction VAD basée sur le serveur lorsque toutes les conditions suivantes sont remplies :
Les interactions sont structurées (navigation dans le menu de style IVR).
Les réponses sont courtes et prévisibles.
Le bruit d’arrière-plan est un problème (le VAD sémantique peut attendre trop longtemps).
Vous voulez une interaction rapide et fluide.
Utilisez la fonction VAD sémantique lorsque toutes les conditions suivantes sont remplies :
Les conversations sont libres et sans limite définie.
Les appelants peuvent hésiter ou utiliser des mots de remplissage (« um », « laissez-moi penser... »).
Les questions sont complexes (les appelants expliquent les situations).
La fluidité naturelle des conversations est priorisée.
Configurer un VAD basé sur le serveur
Accédez à Paramètres>Voix>Configuration Téléphone>Entrée vocale>Sensibilité>Basé sur le son (silence).
| Paramètre | Description | Par défaut | Plage recommandée |
|---|---|---|---|
| Seuil | Sensibilité à la voix et au bruit (échelle 0-1) | 0,6 | 0.5-0.7 |
| Remplissage de préfixes (ms) | Audio capturé avant le début de la parole | 300 ms | 200-500 ms |
| Durée du silence (ms) | Silence requis pour terminer le tour | 750 ms | 750-1000 ms |
Seuil
Inférieur (0,3-0,4) : plus sensible ; récupère la parole silencieuse, peut déclencher le bruit d’arrière-plan.
Plus élevé (0,7-0,9) : moins sensible ; nécessite une voix plus forte, réduit les faux déclencheurs.
Recommandé : Démarrer avec la version 0.5 ; augmentez si le bruit d’arrière-plan provoque des déclencheurs faux.
Ajout de préfixes
Capture l’audio avant la détection vocale (empêche la suppression du premier mot).
Inférieur (200 ms) : réponse plus rapide ; peut manquer la première syllabe.
Plus élevé (500 ms) : capture plus sûre ; léger retard.
Recommandé : 300 ms (bon équilibre).
Durée du silence
Durée pendant laquelle l’appelant doit être silencieux avant que l’agent ne réponde.
Plus faible (500 ms) : prise de parole rapide ; peut interrompre si l’appelant fait une pause en cours de phrase.
Plus élevé (1000 ms) : plus patient ; peut sembler lent.
Recommandé : commencez par 750 ms.
Configurer le VAD sémantique
Accédez à Paramètres>Voix>Configuration du téléphone>Entrée vocale>Sensibilité>En fonction du contexte de la phrase.
Paramètre : promptitude (vitesse à laquelle l’agent répond après la complétion sémantique)
| Réglage | Behavior | Idéal pour |
|---|---|---|
| Faible | Attend plus longtemps, très patient | Appelants qui pensent à haute voix, des pauses fréquentes |
| Moyenne | Équilibré (par défaut) | Conversations générales |
| Élevé | Répond rapidement | Interactions rapides, questions simples |
Configuration DTMF
Dual-Tone Multi-Fréquence (DTMF) permet aux appelants de composer des informations à l’aide de leur clavier du téléphone.
Vous pouvez activer DTMF pour votre agent à la fois au niveau du sujet et au niveau global. Pour le définir au niveau global, sélectionnez votre agent et accédez à Paramètres>Vocale>Comportement de conversation>DTMF.
Pour la définir par nœud de rubrique, consultez Activer la prise en charge DTMF pour votre assistant vocal.
Pour assurer la fiabilité de la complétion d'entrée, vous pouvez configurer le chronométrage et le comportement de terminaison DTMF. Cette configuration inclut un délai d’expiration inter-chiffres, qui définit la durée pendant laquelle le système attend entre les appuis de touches et un caractère d’arrêt facultatif (tel que # ou *) qui signale explicitement la fin de l’entrée. Lorsque vous utilisez un caractère d’arrêt, le système traite immédiatement les entrées sans attendre un délai d’expiration.
Détection du silence
La détection de silence permet aux agents vocaux en temps réel de reconnaître lorsqu’un appelant ne fournit aucune entrée pour une période spécifiée. Configurez la détection de silence comme paramètre vocal global pour l’agent en accédant à Paramètres>Voix>Comportement de conversation>Détection de silence.
Le minuteur de silence démarre lorsque l’agent termine de parler et ne détecte aucune entrée vocale ou DTMF de l’appelant. Si le délai d’expiration du silence est atteint, l’agent suit la rubrique de détection de silence configurée.
Important
La détection du silence n’est pas activée par défaut. Si l’utilisateur ne parle pas, l’agent attend indéfiniment sans donner de consigne. Activez explicitement la détection du silence et configurez un message de repromptage pour gérer les appelants silencieux.
Le délai d’expiration de détection du silence par défaut est de 7 000 ms (7 secondes). Validez cette valeur par rapport à votre cas d’usage spécifique et à votre environnement d’appelant avant le déploiement en production. Sept secondes peuvent être trop longues pour certains appelants ou trop court pour d’autres en fonction de la nature de l’interaction, par exemple, des questions complexes ou des environnements bruyants. Testez avec des données d’appel réelles pour déterminer le seuil approprié pour votre scénario.
Avant d’activer la détection du silence, assurez-vous que le comportement que vous configurez dans votre rubrique de détection du silence (par exemple, Escalader, Raccrocher, Redemander) est intentionnel et adapté à votre cas d’utilisation. Un comportement de repli mal configuré, comme définir par inadvertance le repli sur Escalader alors que l’intention est de raccrocher, ou inversement, peut entraîner des résultats d’appel inattendus.
Messagerie de latence
Ajoutez un message de latence ou de la musique à votre agent lorsque les opérations en arrière-plan prennent plus de temps que prévu. Pour configurer la messagerie de latence, accédez à Paramètres>Voix>Comportement de la conversation>Messagerie de latence.
Évaluation en temps réel de l'agent vocal (aperçu)
Les agents vocaux en temps réel prennent en charge l’envoi de texte pendant l’évaluation, mais le traitement audio n’est pas pris en charge.