Realtime spraakagents configureren

[Dit artikel maakt deel uit van de voorlopige documentatie en kan nog veranderen.]

Configureer een realtime spraakagent door realtime spraak in te schakelen, kernopties in te stellen en vervolgens functies zoals onderwerpen, meertalige ondersteuning, DTMF en stiltedetectie te configureren.

Realtime spraak instellen en inschakelen

  1. Maak een nieuwe agent en configureer de basisdetails, zoals een beschrijvende naam en het doel van de agent in de beschrijving.

  2. Ga naar de steminstellingen van de agent en schakel Spraak inschakelen in en selecteer vervolgens In SpraaktypeRealtime-spraak. Meer informatie vindt u in Kiezen hoe spraak moet worden verwerkt.

    Important

    Dit is een eenmalige selectie. Nadat u Realtime-spraak hebt geselecteerd, kunt u niet teruggaan naar Basic-spraak. Als u Basic Voice wilt gebruiken, maakt u een nieuwe agent.

    Schermopname van de instellingen van een agent, waarbij de realtime-spraakinstelling wordt gemarkeerd.

  3. Ga naar de beveiligingsinstellingen van de agent en selecteer Geen verificatie.

Kennis en hulpprogramma's

U kunt uw agent configureren voor het gebruik van kennis en hulpprogramma's. Meer informatie vindt u in het overzicht van kennisbronnen, hulpprogramma's toevoegen aan aangepaste agents en hulpprogramma's, kennis, MCP en API.

Geneste agents (preview)

Realtime spraakagenten ondersteunen alleen subagenten.

Important

Zorg ervoor dat beschrijvingen van onderliggende agents niet overlappen met omschrijvingen van onderwerpen. Definieer expliciet de aanroepvolgorde in de instructies van de agent.

Onderwerpen

Realtime spraakagenten ondersteunen alle onderwerpen die zijn geconfigureerd in Copilot Studio. Gebruik onderwerpen om deterministisch gedrag te definiëren, zoals begroetingen, bedrijfsregels en escalatie, terwijl het realtime spraakmodel gespreksreacties tijdens runtime beheert. Meer informatie vindt u in Kiezen hoe u het gesprek kunt beheren.

Aanbevolen procedures bij het gebruik van onderwerpen met realtime spraakagents

  • Gebruik onderwerpen alleen als deterministisch gedrag vereist is.

  • Gebruik statische tekst in begroetingsberichten voor het snelste eerste antwoord. Dynamische berichten met variabelen en expressies verhogen de initiële latentie.

  • Gesprek starten is standaard ingeschakeld. Als u wilt dat het realtime spraakmodel de begroeting afhandelt, schakelt u het onderwerp Gespreksstart uit; anders wordt de begroeting die is geconfigureerd in het onderwerp Gespreksstart afgespeeld in plaats van de begroeting van het spraakmodel.

  • Laat het realtime spraakmodel algemene gesprekken en vervolgvragen afhandelen.

  • Het onderwerp On Error moet een expliciete actie bevatten, zoals doorschakelen of beëindigen van oproep. Foutafhandeling met alleen berichten is niet voldoende. Zonder een deterministische volgende stap kunnen klanten stilte of vastgelopen gesprekken ervaren, wat leidt tot verwarring en slechte spraakervaringen.

  • Gebruik expliciete onderwerp- en hulpprogrammabeschrijvingen om het eigendom van gegevensverzameling te declareren. Meer informatie over het schrijven van effectieve onderwerp- en hulpprogrammabeschrijvingen.

Ondersteuning voor onderwerpknooppunten

In de volgende lijst wordt onderwerpondersteuning in realtime spraakagenten beschreven:

Voorwaardeknooppunt

Feature Support
If/Else-structuur Ondersteund
Power Fx-expressies Ondersteund
Herverwerking voor het vullen van slots Ondersteund

Bericht-knooppunt

Feature Support
Basisbericht Ondersteund
Berichtvariaties Ondersteund
Variabele invoeging Ondersteund
SSML Ondersteund
Rijke media/adaptieve kaarten Niet van toepassing
Snelle antwoorden Niet van toepassing

Vraagknooppunt

Feature Support
Prompttekst Ondersteund
Automatische pauze Niet ondersteund
Vullen van slots Ondersteund
Gedrag voor overslaan/Greedy vullen van slots Ondersteund
Opnieuw proberen Ondersteund
Ongeldige verwerking van antwoorden Ondersteund
Onderbreking van onderwerp Ondersteund
Inbreken Ondersteund
Aangepast bericht voor opnieuw vragen Ondersteund
DTMF-invoer Ondersteund
Stiltedetectie Ondersteund

HTTP-knooppunt

Feature Support
HTTP-methoden: GET, POST, PUT, PATCH, DELETE Ondersteund
URL-eindpunten Ondersteund
Headers en nettoladingen Ondersteund
Antwoordparsering en schema Ondersteund
Variabeletoewijzing Ondersteund
Foutafhandeling Ondersteund

Hulpprogrammaknooppunt

Feature Support
Power Automate-stroom Ondersteund
Aanroepen van hulpprogramma's Ondersteund
Invoer-/uitvoertoewijzing Ondersteund
Nieuwe prompt Ondersteund

Variabelewaardeknooppunt instellen

Feature Support
Letterlijke toewijzing Ondersteund
Expressietoewijzing Ondersteund
Variabele naar variabele Ondersteund

Onderwerpbeheerknooppunt

Feature Support
Huidig onderwerp beëindigen Ondersteund
Alle onderwerpen beëindigen Ondersteund
Gesprek beëindigen Ondersteund
Ga naar stap Ondersteund
Gebruikersinvoer voor intentie herkennen Ondersteund
Naar een ander onderwerp gaan Ondersteund

Gespreksknooppunt overdragen

Feature Support
Overdracht naar agent Ondersteund
Overdracht van externe telefoonnummers Ondersteund

Advanced

Feature Support
Generatieve antwoorden maken Ondersteund

Ondersteuning voor systeemtriggers

Activator Support Bijzonderheden
Aan het begin van een gesprek Ondersteund Wordt geactiveerd wanneer een nieuw gesprek begint
Tijdens gesprek met vertegenwoordiger Ondersteund Wordt overgedragen naar menselijke agent
Onbekend onderwerp/bij onbekende intentie Niet ondersteund Noodoplossing als er geen enkel onderwerp overeenkomt
OnSelectIntent (meerdere onderwerpen komen overeen) Niet ondersteund Ondubbelzinnigheid tussen vergelijkbare onderwerpen
Gesprek opnieuw instellen (OnSystemRedirect) Ondersteund Wist variabelen en start de stroom opnieuw
Bij Aanmelden Niet ondersteund
Onbekende DTMF-toetsindrukking Ondersteund Niet-toegewezen toetsenblokinvoer
De agent kiest / Gebruiker zegt een zin Ondersteund Agent selecteert onderwerp op basis van intentie
Er wordt een bericht ontvangen Niet ondersteund Verhoogt de latentie
Er vindt een aangepaste klantenevenement plaats Niet ondersteund Alleen bij het starten van de sessie
De gespreksupdate Niet ondersteund Leden toegevoegd of verwijderd, sessiewijzigingen
Wordt aangeroepen Niet ondersteund Vereist synchrone gebruikersinterface
Het wordt omgeleid Ondersteund
De gebruiker is inactief voor een tijdje/stiltedetectie Ondersteund Time-out bij inactiviteit van gebruiker
Een plan is voltooid Niet ondersteund
AI-antwoord gegenereerd Niet ondersteund
Bij een fout Ondersteund Afhandeling van orchestratiefouten

Variabelen doorgeven tussen onderwerpen en het taalmodel

Wanneer u onderwerpen in een hybride gespreksstroom gebruikt, is het essentieel om variabelen over te dragen tussen onderwerpen en het realtime taalmodel om betrouwbare, statusgevoelige interacties te creëren.

Deze functionaliteit werkt via het volgende proces:

  • U geeft invoervariabelen die zijn gedefinieerd voor een onderwerp tijdens aanroeptijd door aan het onderwerp, zodat het taalmodel gestructureerde gegevens kan leveren aan de deterministische stroom.

  • U retourneert uitvoervariabelen die zijn gedefinieerd voor een onderwerp naar het taalmodel aan het einde van de uitvoering van het onderwerp als gestructureerde sleutel-waardeparen. Het taalmodel bevat deze uitvoer in de gesprekscontext en u kunt ernaar verwijzen in volgende beurten.

  • Uitvoer van hulpprogramma-aanroep volgt hetzelfde patroon: u verzendt uitvoer naar het taalmodel aan het einde van de uitvoering van het hulpprogramma en ze zijn beschikbaar voor toekomstig gebruik in het contextvenster van het gesprek.

  • Het taalmodel wordt gevuld met gesprekscontext, waaronder sleutel-/waardeparen voor de uitvoer van aanroepen van hulpprogramma's. U retourneert echter alleen expliciet gedefinieerde uitvoervariabelen als gestructureerde gegevens. U kunt een waarde in een onderwerp verzamelen, zoals een geverifieerd accountnummer. Definieer die waarde als uitvoer. Als u dat niet doet, heeft het taalmodel er geen toegang toe. De agent kan de beller later opnieuw om dezelfde informatie vragen.

Meer informatie vindt u in Onderwerpinvoer en -uitvoer beheren.

Meertalige ondersteuning

Voeg alle secundaire talen toe die u wilt. Lokalisatiereeksen zijn niet vereist voor realtime stroombanen. Voor deterministische onderwerpberichten moet u echter de vertaalde berichten opgeven. Meer informatie in Configureren en meertalige agents maken.

Het realtime model kan in veel talen begrijpen en erop reageren. Microsoft valideert echter niet alle talen voor algemene beschikbaarheid.

Vanaf april 2026 worden de volgende talen formeel gevalideerd:

  • Engels (Verenigde Staten) (en-US)
  • Spaans (Verenigde Staten) (es-US)
  • Arabisch
  • Portugees (Brazilië) (pt-BR)
  • Italiaans (Italië) (it-IT)
  • Duits (Duitsland) (de-DE)
  • Nederlands (Nederland) (nl-NL)
  • Frans (Canada) (fr-CA)

Microsoft blijft andere talen valideren en toevoegen na voltooiing van de certificering. U kunt elke taal toevoegen die wordt ondersteund door Copilot Studio. Talen die niet volledig zijn gecertificeerd voor kwaliteit op GA-niveau, moeten echter grondig worden getest vóór de productie-implementatie.

Important

Technische taalmogelijkheden zijn niet gelijk aan een ondersteunde of gecertificeerde taal. Als u agents in andere talen dan Engels wilt implementeren, moet u uitgebreide tests uitvoeren met echte bellers en oproepstromen voordat u live gaat.

Contextvariabelen

Een realtime spraakagent ondersteunt contextvariabelen waarmee deze zich intelligenter kan gedragen door informatie over de oproep, de beller en het huidige gesprek te bevatten. Het systeem biedt automatisch een beperkte set oproep- en gesprekscontext aan het model tijdens runtime. Deze set omvat:

Contextvariabele Description
Kanaal-ID Identificeert het communicatiekanaal dat wordt gebruikt voor de interactie. Deze identificatie helpt het model te begrijpen dat het gesprek plaatsvindt via een spraak-naar-spraakkanaal.
Telefoonnummer van de beller (ANI) Het oorspronkelijke telefoonnummer van de beller. Het systeem kan deze informatie gebruiken om identificatiescenario's voor bellers te ondersteunen.
Nummer van de gebelde (DNIS) Het doeltelefoonnummer dat de beller heeft gebeld. Deze informatie helpt te onderscheiden welk bedrijfsnummer of toegangspunt is bereikt.
Gespreks-id Een unieke id voor de actieve oproepsessie. Gebruik deze waarde om continuïteit in één gesprek te correleren en te behouden.
SIP-headers Een set ondersteunde SIP-headersleutel-waardeparen die aan de aanroep zijn gekoppeld. De set bevat alleen niet-gevoelige en ondersteunde headers.
Huidige datum (UTC) De huidige datum in Coordinated Universal Time (UTC), die tijdens de uitvoertijd wordt verstrekt om te zorgen voor antwoorden die rekening houden met de datum.
Huidige tijd (UTC) De huidige tijd in Coordinated Universal Time (UTC), die tijdens de uitvoeringstijd wordt verstrekt om tijdafhankelijke antwoorden mogelijk te maken.

Volg voor alle andere contextvariabelen de stappen die worden beschreven in Contextvariabelen configureren voor agents.

Stem van agent

Selecteer de stem die uw agent gebruikt door uw agent te selecteren en naar Instellingen>stem>selecteren te gaan. Realtime spraakagenten ondersteunen de volgende stemmen:

  • Legering
  • Ash
  • Ballade
  • Coral
  • Echo
  • Sage
  • Shimmer
  • Vers
  • Marin
  • Cedar

Note

  • De stem van de agent is voor uw realtime spraakagent en is niet degene die is geconfigureerd in het Copilot Service-beheercentrum.
  • Gebruik alleen de ondersteunde stemmen Legering, Echo, Shimmer of Ash om de stemmen van uw Dynamics-systeemberichten te laten overeenkomen met die van uw realtime spraakagent.

Spraakgevoeligheid

Spraakgevoeligheidsdetectie (VAD) bepaalt wanneer de agent moet reageren nadat de beller klaar is met spreken.

Inzicht in VAD-typen

Realtime spraakagenten ondersteunen twee VAD-benaderingen:

Schermopname van het dialoogvenster Spraakgevoeligheid.

Servergebaseerde VAD - Gebaseerd op geluid (stilte)

  • Detecteert het einde van spraak op basis van audiosignalen (stilteduur, volume)

  • Reageert snel zodra stilte wordt gedetecteerd

  • Deterministisch, voorspelbaar gedrag

  • Het meest geschikt voor gestructureerde interacties, korte antwoorden, lawaaierige omgevingen

Semantische VAD - Gebaseerd op zincontext

  • Bepaalt de voltooiing van de beurt op basis van de betekenis van wat er is gezegd

  • Evalueert of de beller de gedachte heeft voltooid

  • Wordt aangepast aan natuurlijke pauzes, opvulwoorden, volgspraak

  • Geschikt voor: Gespreksinteracties, complexe vragen, open discussies

Selecteer de juiste VAD

Gebruik op server gebaseerde VAD wanneer aan alle volgende voorwaarden wordt voldaan:

  • Interacties zijn gestructureerd (IVR-menunavigatie).

  • Antwoorden zijn kort en voorspelbaar.

  • Achtergrondruis is een probleem (semantische VAD kan te lang wachten).

  • U wilt snelle, soepele beurtwisselingen.

Gebruik semantische VAD wanneer aan alle volgende voorwaarden wordt voldaan:

  • Gesprekken zijn open en onbepaald.

  • Bellers kunnen aarzelen of vulwoorden gebruiken ('um', 'laat me denken...').

  • Vragen zijn complex (bellers leggen situaties uit).

  • De natuurlijke gespreksstroom heeft prioriteit.

OP server gebaseerde VAD configureren

Ga naar Instellingen>Spraak>Telefooninstellingen>Stem Invoer>Gevoeligheid>Op basis van geluid (stilte).

Schermopname van het dialoogvenster Spraakgevoeligheid wanneer deze is ingesteld op Gebaseerd op geluid (stilte).

Parameter Description Verstek Aanbevolen bereik
Drempelwaarde Gevoeligheid voor spraak versus ruis (0-1 schaal) 0,6 0.5-0.7
Voorvoegselopvulling (ms) Audio vastgelegd voordat spraak wordt gestart 300 ms 200-500 ms
Stilteduur (ms) Stilte vereist om de beurt te beëindigen 750 ms 750-1000 ms

Drempelwaarde

  • Lager (0,3-0.4): Gevoeliger; haalt stille spraak op, kan worden geactiveerd op achtergrondruis.

  • Hoger (0,7-0.9): Minder gevoelig; vereist luider spraak, vermindert valse triggers.

  • Aanbevolen: Beginnen met 0,5; verhogen als achtergrondruis valse triggers veroorzaakt.

Voorvoegselopvulling

  • Legt audio vast vóór spraakdetectie (voorkomt dat het eerste woord wordt afgekapt).

  • Lager (200 ms): Sneller antwoord; kan de eerste lettergreep missen.

  • Hoger (500 ms): veiliger vastleggen; lichte vertraging.

  • Aanbevolen: 300 ms (goed saldo).

Stilteduur

  • Hoe lang de beller stil moet zijn voordat de agent reageert.

  • Lager (500 ms): snelle gesprekswisselingen; kan worden onderbroken als de beller een stilte laat vallen om na te denken.

  • Hoger (1000 ms): Meer patiënt; voelt zich misschien traag.

  • Aanbevolen: Begin met 750 ms.

Semantische VAD configureren

Ga naar Settings>Voice>Phone Setup>Speech Input>Sensitivity>Op basis van zincontext.

Schermopname van het dialoogvenster Spraakgevoeligheid wanneer deze is ingesteld op Gebaseerd op zincontext.

Parameter: Gretigheid (hoe snel de agent reageert na semantische voltooiing)

Configuratie Gedrag Ideaal voor
Low Wacht langer, erg geduldig Bellers die hardop denken, frequente pauzes
Gemiddeld Evenwichtig (standaard) Algemene gesprekken
Hoog Reageert snel Snelle interacties, eenvoudige vragen

DTMF-configuratie

Dual-Tone Multi-Frequency (DTMF) laat bellers toe om informatie in te voeren met het toetsenblok van hun telefoon.

U kunt DTMF voor uw agent inschakelen op zowel het onderwerp als globale niveaus. Als u deze op globaal niveau wilt instellen, selecteert u uw agent en gaat u naar>> instellingen voor>.

Wilt u dit per onderwerpknoop instellen, raadpleegt u DTMF-ondersteuning inschakelen voor uw spraakgestuurde agent.

Ter ondersteuning van betrouwbare invoervoltooiing kunt u DTMF-timing en beëindigingsgedrag configureren. Deze configuratie omvat een time-out tussen cijfers, waarmee wordt gedefinieerd hoe lang het systeem wacht tussen toetsdrukken en een optioneel beëindigingsteken (zoals # of *) dat expliciet het einde van de invoer aangeeft. Wanneer u een beëindigingsteken gebruikt, verwerkt het systeem onmiddellijk invoer zonder te wachten op een time-out.

Stiltedetectie

Met stiltedetectie kunnen realtime spraakagents herkennen wanneer een beller geen invoer biedt voor een opgegeven periode. Stel stiltedetectie in als een globale spraakinstelling voor de agent door naar Instellingen>Spraak>Gespreksgedrag>Stiltedetectie te gaan.

De stiltetimer wordt gestart wanneer de agent klaar is met spreken en detecteert geen spraak- of DTMF-invoer van de beller. Als de time-out voor stilte is bereikt, volgt de agent het geconfigureerde onderwerp voor stiltedetectie.

Important

  • Stiltedetectie is niet standaard ingeschakeld. Als de gebruiker niet spreekt, wacht de agent voor onbepaalde tijd zonder te vragen. Schakel stiltedetectie expliciet in en configureer een reprompt bericht voor het afhandelen van stille bellers.

  • De standaard time-out voor stiltedetectie is 7000 ms (7 seconden). Valideer deze waarde op basis van uw specifieke use-case en aanroepomgeving voordat u implementeert in productie. Zeven seconden voelen zich mogelijk te lang voor sommige bellers of te kort voor anderen, afhankelijk van de aard van de interactie, bijvoorbeeld complexe vragen of lawaaierige omgevingen. Test met echte oproepgegevens om de juiste drempelwaarde voor uw scenario te bepalen.

  • Voordat u stiltedetectie inschakelt, moet u ervoor zorgen dat het gedrag dat u configureert in uw stiltedetectie-onderwerp (bijvoorbeeld Escaleren, Ophangen, Reprompt) opzettelijk en geschikt is voor uw gebruikssituatie. Onjuist geconfigureerd terugvalgedrag, zoals het per ongeluk instellen van de terugvaloptie op Escaleren wanneer het de intentie is om op te hangen, of andersom, kan leiden tot onverwachte gespreksresultaten.

Latentieberichten

Voeg latentiebericht of muziek toe aan uw agent wanneer achtergrondbewerkingen langer duren dan verwacht. Als u latentieberichten wilt configureren, gaat u naar Instellingen>Stem>Gesprek>Gespreksgedrag latentieberichten.

Schermopname van het dialoogvenster Latentieberichten.

Evaluatie van realtime spraakagenten (preview)

Realtime spraakagenten ondersteunen het verzenden van tekst tijdens de evaluatie, maar audioverwerking wordt niet ondersteund.