Realtime spraakagents configureren

[Dit artikel maakt deel uit van de voorlopige documentatie en kan nog veranderen.]

Configureer een realtime spraakagent door realtime spraak in te schakelen, kernopties in te stellen en vervolgens functies zoals onderwerpen, meertalige ondersteuning, DTMF en stiltedetectie te configureren.

Realtime spraak instellen en inschakelen

Maak een nieuwe agent en configureer de basisdetails, zoals een beschrijvende naam en het doel van de agent in de beschrijving.
Ga naar de steminstellingen van de agent en schakel Spraak inschakelen in en selecteer vervolgens In SpraaktypeRealtime-spraak. Meer informatie vindt u in Kiezen hoe spraak moet worden verwerkt.

Important

Dit is een eenmalige selectie. Nadat u Realtime-spraak hebt geselecteerd, kunt u niet teruggaan naar Basic-spraak. Als u Basic Voice wilt gebruiken, maakt u een nieuwe agent.
Ga naar de beveiligingsinstellingen van de agent en selecteer Geen verificatie.

Kennis en hulpprogramma's

U kunt uw agent configureren voor het gebruik van kennis en hulpprogramma's. Meer informatie vindt u in het overzicht van kennisbronnen, hulpprogramma's toevoegen aan aangepaste agents en hulpprogramma's, kennis, MCP en API.

Geneste agents (preview)

Realtime spraakagenten ondersteunen alleen subagenten.

Important

Zorg ervoor dat beschrijvingen van onderliggende agents niet overlappen met omschrijvingen van onderwerpen. Definieer expliciet de aanroepvolgorde in de instructies van de agent.

Onderwerpen

Realtime spraakagenten ondersteunen alle onderwerpen die zijn geconfigureerd in Copilot Studio. Gebruik onderwerpen om deterministisch gedrag te definiëren, zoals begroetingen, bedrijfsregels en escalatie, terwijl het realtime spraakmodel gespreksreacties tijdens runtime beheert. Meer informatie vindt u in Kiezen hoe u het gesprek kunt beheren.

Aanbevolen procedures bij het gebruik van onderwerpen met realtime spraakagents

Gebruik onderwerpen alleen als deterministisch gedrag vereist is.
Gebruik statische tekst in begroetingsberichten voor het snelste eerste antwoord. Dynamische berichten met variabelen en expressies verhogen de initiële latentie.
Gesprek starten is standaard ingeschakeld. Als u wilt dat het realtime spraakmodel de begroeting afhandelt, schakelt u het onderwerp Gespreksstart uit; anders wordt de begroeting die is geconfigureerd in het onderwerp Gespreksstart afgespeeld in plaats van de begroeting van het spraakmodel.
Laat het realtime spraakmodel algemene gesprekken en vervolgvragen afhandelen.
Het onderwerp On Error moet een expliciete actie bevatten, zoals doorschakelen of beëindigen van oproep. Foutafhandeling met alleen berichten is niet voldoende. Zonder een deterministische volgende stap kunnen klanten stilte of vastgelopen gesprekken ervaren, wat leidt tot verwarring en slechte spraakervaringen.
Gebruik expliciete onderwerp- en hulpprogrammabeschrijvingen om het eigendom van gegevensverzameling te declareren. Meer informatie over het schrijven van effectieve onderwerp- en hulpprogrammabeschrijvingen.

Ondersteuning voor onderwerpknooppunten

In de volgende lijst wordt onderwerpondersteuning in realtime spraakagenten beschreven:

Voorwaardeknooppunt

Feature	Support
If/Else-structuur	Ondersteund
Power Fx-expressies	Ondersteund
Herverwerking voor het vullen van slots	Ondersteund

Bericht-knooppunt

Feature	Support
Basisbericht	Ondersteund
Berichtvariaties	Ondersteund
Variabele invoeging	Ondersteund
SSML	Ondersteund
Rijke media/adaptieve kaarten	Niet van toepassing
Snelle antwoorden	Niet van toepassing

Vraagknooppunt

Feature	Support
Prompttekst	Ondersteund
Automatische pauze	Niet ondersteund
Vullen van slots	Ondersteund
Gedrag voor overslaan/Greedy vullen van slots	Ondersteund
Opnieuw proberen	Ondersteund
Ongeldige verwerking van antwoorden	Ondersteund
Onderbreking van onderwerp	Ondersteund
Inbreken	Ondersteund
Aangepast bericht voor opnieuw vragen	Ondersteund
DTMF-invoer	Ondersteund
Stiltedetectie	Ondersteund

HTTP-knooppunt

Feature	Support
HTTP-methoden: GET, POST, PUT, PATCH, DELETE	Ondersteund
URL-eindpunten	Ondersteund
Headers en nettoladingen	Ondersteund
Antwoordparsering en schema	Ondersteund
Variabeletoewijzing	Ondersteund
Foutafhandeling	Ondersteund

Hulpprogrammaknooppunt

Feature	Support
Power Automate-stroom	Ondersteund
Aanroepen van hulpprogramma's	Ondersteund
Invoer-/uitvoertoewijzing	Ondersteund
Nieuwe prompt	Ondersteund

Variabelewaardeknooppunt instellen

Feature	Support
Letterlijke toewijzing	Ondersteund
Expressietoewijzing	Ondersteund
Variabele naar variabele	Ondersteund

Onderwerpbeheerknooppunt

Feature	Support
Huidig onderwerp beëindigen	Ondersteund
Alle onderwerpen beëindigen	Ondersteund
Gesprek beëindigen	Ondersteund
Ga naar stap	Ondersteund
Gebruikersinvoer voor intentie herkennen	Ondersteund
Naar een ander onderwerp gaan	Ondersteund

Gespreksknooppunt overdragen

Feature	Support
Overdracht naar agent	Ondersteund
Overdracht van externe telefoonnummers	Ondersteund

Advanced

Feature	Support
Generatieve antwoorden maken	Ondersteund

Ondersteuning voor systeemtriggers

Activator	Support	Bijzonderheden
Aan het begin van een gesprek	Ondersteund	Wordt geactiveerd wanneer een nieuw gesprek begint
Tijdens gesprek met vertegenwoordiger	Ondersteund	Wordt overgedragen naar menselijke agent
Onbekend onderwerp/bij onbekende intentie	Niet ondersteund	Noodoplossing als er geen enkel onderwerp overeenkomt
OnSelectIntent (meerdere onderwerpen komen overeen)	Niet ondersteund	Ondubbelzinnigheid tussen vergelijkbare onderwerpen
Gesprek opnieuw instellen (OnSystemRedirect)	Ondersteund	Wist variabelen en start de stroom opnieuw
Bij Aanmelden	Niet ondersteund
Onbekende DTMF-toetsindrukking	Ondersteund	Niet-toegewezen toetsenblokinvoer
De agent kiest / Gebruiker zegt een zin	Ondersteund	Agent selecteert onderwerp op basis van intentie
Er wordt een bericht ontvangen	Niet ondersteund	Verhoogt de latentie
Er vindt een aangepaste klantenevenement plaats	Niet ondersteund	Alleen bij het starten van de sessie
De gespreksupdate	Niet ondersteund	Leden toegevoegd of verwijderd, sessiewijzigingen
Wordt aangeroepen	Niet ondersteund	Vereist synchrone gebruikersinterface
Het wordt omgeleid	Ondersteund
De gebruiker is inactief voor een tijdje/stiltedetectie	Ondersteund	Time-out bij inactiviteit van gebruiker
Een plan is voltooid	Niet ondersteund
AI-antwoord gegenereerd	Niet ondersteund
Bij een fout	Ondersteund	Afhandeling van orchestratiefouten

Variabelen doorgeven tussen onderwerpen en het taalmodel

Wanneer u onderwerpen in een hybride gespreksstroom gebruikt, is het essentieel om variabelen over te dragen tussen onderwerpen en het realtime taalmodel om betrouwbare, statusgevoelige interacties te creëren.

Deze functionaliteit werkt via het volgende proces:

U geeft invoervariabelen die zijn gedefinieerd voor een onderwerp tijdens aanroeptijd door aan het onderwerp, zodat het taalmodel gestructureerde gegevens kan leveren aan de deterministische stroom.
U retourneert uitvoervariabelen die zijn gedefinieerd voor een onderwerp naar het taalmodel aan het einde van de uitvoering van het onderwerp als gestructureerde sleutel-waardeparen. Het taalmodel bevat deze uitvoer in de gesprekscontext en u kunt ernaar verwijzen in volgende beurten.
Uitvoer van hulpprogramma-aanroep volgt hetzelfde patroon: u verzendt uitvoer naar het taalmodel aan het einde van de uitvoering van het hulpprogramma en ze zijn beschikbaar voor toekomstig gebruik in het contextvenster van het gesprek.
Het taalmodel wordt gevuld met gesprekscontext, waaronder sleutel-/waardeparen voor de uitvoer van aanroepen van hulpprogramma's. U retourneert echter alleen expliciet gedefinieerde uitvoervariabelen als gestructureerde gegevens. U kunt een waarde in een onderwerp verzamelen, zoals een geverifieerd accountnummer. Definieer die waarde als uitvoer. Als u dat niet doet, heeft het taalmodel er geen toegang toe. De agent kan de beller later opnieuw om dezelfde informatie vragen.

Meer informatie vindt u in Onderwerpinvoer en -uitvoer beheren.

Meertalige ondersteuning

Voeg alle secundaire talen toe die u wilt. Lokalisatiereeksen zijn niet vereist voor realtime stroombanen. Voor deterministische onderwerpberichten moet u echter de vertaalde berichten opgeven. Meer informatie in Configureren en meertalige agents maken.

Het realtime model kan in veel talen begrijpen en erop reageren. Microsoft valideert echter niet alle talen voor algemene beschikbaarheid.

Vanaf april 2026 worden de volgende talen formeel gevalideerd:

Engels (Verenigde Staten) (en-US)
Spaans (Verenigde Staten) (es-US)
Arabisch
Portugees (Brazilië) (pt-BR)
Italiaans (Italië) (it-IT)
Duits (Duitsland) (de-DE)
Nederlands (Nederland) (nl-NL)
Frans (Canada) (fr-CA)

Microsoft blijft andere talen valideren en toevoegen na voltooiing van de certificering. U kunt elke taal toevoegen die wordt ondersteund door Copilot Studio. Talen die niet volledig zijn gecertificeerd voor kwaliteit op GA-niveau, moeten echter grondig worden getest vóór de productie-implementatie.

Important

Technische taalmogelijkheden zijn niet gelijk aan een ondersteunde of gecertificeerde taal. Als u agents in andere talen dan Engels wilt implementeren, moet u uitgebreide tests uitvoeren met echte bellers en oproepstromen voordat u live gaat.

Contextvariabelen

Een realtime spraakagent ondersteunt contextvariabelen waarmee deze zich intelligenter kan gedragen door informatie over de oproep, de beller en het huidige gesprek te bevatten. Het systeem biedt automatisch een beperkte set oproep- en gesprekscontext aan het model tijdens runtime. Deze set omvat:

Contextvariabele	Description
Kanaal-ID	Identificeert het communicatiekanaal dat wordt gebruikt voor de interactie. Deze identificatie helpt het model te begrijpen dat het gesprek plaatsvindt via een spraak-naar-spraakkanaal.
Telefoonnummer van de beller (ANI)	Het oorspronkelijke telefoonnummer van de beller. Het systeem kan deze informatie gebruiken om identificatiescenario's voor bellers te ondersteunen.
Nummer van de gebelde (DNIS)	Het doeltelefoonnummer dat de beller heeft gebeld. Deze informatie helpt te onderscheiden welk bedrijfsnummer of toegangspunt is bereikt.
Gespreks-id	Een unieke id voor de actieve oproepsessie. Gebruik deze waarde om continuïteit in één gesprek te correleren en te behouden.
SIP-headers	Een set ondersteunde SIP-headersleutel-waardeparen die aan de aanroep zijn gekoppeld. De set bevat alleen niet-gevoelige en ondersteunde headers.
Huidige datum (UTC)	De huidige datum in Coordinated Universal Time (UTC), die tijdens de uitvoertijd wordt verstrekt om te zorgen voor antwoorden die rekening houden met de datum.
Huidige tijd (UTC)	De huidige tijd in Coordinated Universal Time (UTC), die tijdens de uitvoeringstijd wordt verstrekt om tijdafhankelijke antwoorden mogelijk te maken.

Volg voor alle andere contextvariabelen de stappen die worden beschreven in Contextvariabelen configureren voor agents.

Stem van agent

Selecteer de stem die uw agent gebruikt door uw agent te selecteren en naar Instellingen>stem>selecteren te gaan. Realtime spraakagenten ondersteunen de volgende stemmen:

Legering
Ash
Ballade
Coral
Echo
Sage
Shimmer
Vers
Marin
Cedar

Note

De stem van de agent is voor uw realtime spraakagent en is niet degene die is geconfigureerd in het Copilot Service-beheercentrum.
Gebruik alleen de ondersteunde stemmen Legering, Echo, Shimmer of Ash om de stemmen van uw Dynamics-systeemberichten te laten overeenkomen met die van uw realtime spraakagent.

Spraakgevoeligheid

Spraakgevoeligheidsdetectie (VAD) bepaalt wanneer de agent moet reageren nadat de beller klaar is met spreken.

Inzicht in VAD-typen

Realtime spraakagenten ondersteunen twee VAD-benaderingen:

Schermopname van het dialoogvenster Spraakgevoeligheid.

Servergebaseerde VAD - Gebaseerd op geluid (stilte)

Detecteert het einde van spraak op basis van audiosignalen (stilteduur, volume)
Reageert snel zodra stilte wordt gedetecteerd
Deterministisch, voorspelbaar gedrag
Het meest geschikt voor gestructureerde interacties, korte antwoorden, lawaaierige omgevingen

Semantische VAD - Gebaseerd op zincontext

Bepaalt de voltooiing van de beurt op basis van de betekenis van wat er is gezegd
Evalueert of de beller de gedachte heeft voltooid
Wordt aangepast aan natuurlijke pauzes, opvulwoorden, volgspraak
Geschikt voor: Gespreksinteracties, complexe vragen, open discussies

Selecteer de juiste VAD

Gebruik op server gebaseerde VAD wanneer aan alle volgende voorwaarden wordt voldaan:

Interacties zijn gestructureerd (IVR-menunavigatie).
Antwoorden zijn kort en voorspelbaar.
Achtergrondruis is een probleem (semantische VAD kan te lang wachten).
U wilt snelle, soepele beurtwisselingen.

Gebruik semantische VAD wanneer aan alle volgende voorwaarden wordt voldaan:

Gesprekken zijn open en onbepaald.
Bellers kunnen aarzelen of vulwoorden gebruiken ('um', 'laat me denken...').
Vragen zijn complex (bellers leggen situaties uit).
De natuurlijke gespreksstroom heeft prioriteit.

OP server gebaseerde VAD configureren

Ga naar Instellingen>Spraak>Telefooninstellingen>Stem Invoer>Gevoeligheid>Op basis van geluid (stilte).

Schermopname van het dialoogvenster Spraakgevoeligheid wanneer deze is ingesteld op Gebaseerd op geluid (stilte).

Parameter	Description	Verstek	Aanbevolen bereik
Drempelwaarde	Gevoeligheid voor spraak versus ruis (0-1 schaal)	0,6	0.5-0.7
Voorvoegselopvulling (ms)	Audio vastgelegd voordat spraak wordt gestart	300 ms	200-500 ms
Stilteduur (ms)	Stilte vereist om de beurt te beëindigen	750 ms	750-1000 ms

Drempelwaarde

Lager (0,3-0.4): Gevoeliger; haalt stille spraak op, kan worden geactiveerd op achtergrondruis.
Hoger (0,7-0.9): Minder gevoelig; vereist luider spraak, vermindert valse triggers.
Aanbevolen: Beginnen met 0,5; verhogen als achtergrondruis valse triggers veroorzaakt.

Voorvoegselopvulling

Legt audio vast vóór spraakdetectie (voorkomt dat het eerste woord wordt afgekapt).
Lager (200 ms): Sneller antwoord; kan de eerste lettergreep missen.
Hoger (500 ms): veiliger vastleggen; lichte vertraging.
Aanbevolen: 300 ms (goed saldo).

Stilteduur

Hoe lang de beller stil moet zijn voordat de agent reageert.
Lager (500 ms): snelle gesprekswisselingen; kan worden onderbroken als de beller een stilte laat vallen om na te denken.
Hoger (1000 ms): Meer patiënt; voelt zich misschien traag.
Aanbevolen: Begin met 750 ms.

Semantische VAD configureren

Ga naar Settings>Voice>Phone Setup>Speech Input>Sensitivity>Op basis van zincontext.

Schermopname van het dialoogvenster Spraakgevoeligheid wanneer deze is ingesteld op Gebaseerd op zincontext.

Parameter: Gretigheid (hoe snel de agent reageert na semantische voltooiing)

Configuratie	Gedrag	Ideaal voor
Low	Wacht langer, erg geduldig	Bellers die hardop denken, frequente pauzes
Gemiddeld	Evenwichtig (standaard)	Algemene gesprekken
Hoog	Reageert snel	Snelle interacties, eenvoudige vragen

DTMF-configuratie

Dual-Tone Multi-Frequency (DTMF) laat bellers toe om informatie in te voeren met het toetsenblok van hun telefoon.

U kunt DTMF voor uw agent inschakelen op zowel het onderwerp als globale niveaus. Als u deze op globaal niveau wilt instellen, selecteert u uw agent en gaat u naar>> instellingen voor>.

Wilt u dit per onderwerpknoop instellen, raadpleegt u DTMF-ondersteuning inschakelen voor uw spraakgestuurde agent.

Ter ondersteuning van betrouwbare invoervoltooiing kunt u DTMF-timing en beëindigingsgedrag configureren. Deze configuratie omvat een time-out tussen cijfers, waarmee wordt gedefinieerd hoe lang het systeem wacht tussen toetsdrukken en een optioneel beëindigingsteken (zoals # of *) dat expliciet het einde van de invoer aangeeft. Wanneer u een beëindigingsteken gebruikt, verwerkt het systeem onmiddellijk invoer zonder te wachten op een time-out.

Stiltedetectie

Met stiltedetectie kunnen realtime spraakagents herkennen wanneer een beller geen invoer biedt voor een opgegeven periode. Stel stiltedetectie in als een globale spraakinstelling voor de agent door naar Instellingen>Spraak>Gespreksgedrag>Stiltedetectie te gaan.

De stiltetimer wordt gestart wanneer de agent klaar is met spreken en detecteert geen spraak- of DTMF-invoer van de beller. Als de time-out voor stilte is bereikt, volgt de agent het geconfigureerde onderwerp voor stiltedetectie.

Important

Stiltedetectie is niet standaard ingeschakeld. Als de gebruiker niet spreekt, wacht de agent voor onbepaalde tijd zonder te vragen. Schakel stiltedetectie expliciet in en configureer een reprompt bericht voor het afhandelen van stille bellers.
De standaard time-out voor stiltedetectie is 7000 ms (7 seconden). Valideer deze waarde op basis van uw specifieke use-case en aanroepomgeving voordat u implementeert in productie. Zeven seconden voelen zich mogelijk te lang voor sommige bellers of te kort voor anderen, afhankelijk van de aard van de interactie, bijvoorbeeld complexe vragen of lawaaierige omgevingen. Test met echte oproepgegevens om de juiste drempelwaarde voor uw scenario te bepalen.
Voordat u stiltedetectie inschakelt, moet u ervoor zorgen dat het gedrag dat u configureert in uw stiltedetectie-onderwerp (bijvoorbeeld Escaleren, Ophangen, Reprompt) opzettelijk en geschikt is voor uw gebruikssituatie. Onjuist geconfigureerd terugvalgedrag, zoals het per ongeluk instellen van de terugvaloptie op Escaleren wanneer het de intentie is om op te hangen, of andersom, kan leiden tot onverwachte gespreksresultaten.

Latentieberichten

Voeg latentiebericht of muziek toe aan uw agent wanneer achtergrondbewerkingen langer duren dan verwacht. Als u latentieberichten wilt configureren, gaat u naar Instellingen>Stem>Gesprek>Gespreksgedrag latentieberichten.

Evaluatie van realtime spraakagenten (preview)

Realtime spraakagenten ondersteunen het verzenden van tekst tijdens de evaluatie, maar audioverwerking wordt niet ondersteund.

Feedback

Is deze pagina nuttig?

Last updated on 2026-05-19

Realtime spraakagents configureren

Realtime spraak instellen en inschakelen

Kennis en hulpprogramma's

Geneste agents (preview)

Onderwerpen

Aanbevolen procedures bij het gebruik van onderwerpen met realtime spraakagents

Ondersteuning voor onderwerpknooppunten

Voorwaardeknooppunt

Bericht-knooppunt

Vraagknooppunt

HTTP-knooppunt

Hulpprogrammaknooppunt

Variabelewaardeknooppunt instellen

Onderwerpbeheerknooppunt

Gespreksknooppunt overdragen

Advanced

Ondersteuning voor systeemtriggers

Variabelen doorgeven tussen onderwerpen en het taalmodel

Meertalige ondersteuning

Contextvariabelen

Stem van agent

Spraakgevoeligheid

Inzicht in VAD-typen

Selecteer de juiste VAD

OP server gebaseerde VAD configureren

Drempelwaarde

Voorvoegselopvulling

Stilteduur

Semantische VAD configureren

DTMF-configuratie

Stiltedetectie

Latentieberichten

Evaluatie van realtime spraakagenten (preview)

Feedback

Aanvullende resources