Konfigurer stemmeagenter i realtid

[Denne artikel er foreløbig dokumentation og kan ændres.]

Konfigurer en stemmeagent i realtid ved at aktivere stemmen i realtid, angive kerneindstillinger og derefter konfigurere funktioner som emner, flersproget support, DTMF og lyddæmpende registrering.

Konfigurer og aktivér stemme i realtid

Opret en ny agent, og konfigurer de grundlæggende oplysninger, f.eks. et beskrivende navn og agentens formål i beskrivelsen.
Gå til agentens stemmeindstillinger, og slå Aktivér stemme til, og vælg derefter Stemmei Stemmetype. Få mere at vide i Vælg, hvordan tale skal håndteres.

Vigtigt!

Dette er en engangsvalg. Når du har valgt Stemme i realtid, kan du ikke skifte tilbage til Grundlæggende stemme. Hvis du vil bruge Basic-stemmen, skal du oprette en ny agent.
Gå til agentens sikkerhedsindstillinger , og vælg Ingen godkendelse.

Viden og værktøjer

Du kan konfigurere din agent til at bruge viden og værktøjer. Få mere at vide i oversigten over videnkilder, Føj værktøjer til brugerdefinerede agenter og Værktøjer, viden, MCP og API.

Indlejrede agenter (prøveversion)

Stemmeagenter i realtid understøtter kun børneagenter.

Vigtigt!

Sørg for, at beskrivelser af underordnede agenter ikke overlapper emnebeskrivelser. Definer eksplicit aktiveringsrækkefølgen i agentens instruktioner.

Emner

Taleagenter i realtid understøtter alle emner , der er konfigureret i Copilot Studio. Brug emner til at definere deterministiske funktionsmåder, f.eks. hilsener, forretningsregler og eskalering, mens stemmemodellen i realtid administrerer samtalesvar på kørselstidspunktet. Få mere at vide under Vælg, hvordan du styrer samtalen.

Bedste praksis, når du bruger emner med stemmeagenter i realtid

Brug kun emner, når deterministisk funktionsmåde er påkrævet.
Brug statisk tekst i lykønskningsmeddelelser for at få det hurtigste svar. Dynamiske meddelelser med variabler og udtryk øger den indledende ventetid.
Samtalestart er aktiveret som standard. Hvis du vil have, at stemmemodellen i realtid skal håndtere hilsenen, skal du deaktivere emnet Samtalestart. Ellers afspilles den hilsen, der er konfigureret i emnet Samtalestart, i stedet for en hilsen til stemmemodellen.
Lad stemmemodellen i realtid håndtere generelle samtale- og opfølgningsspørgsmål.
Emnet On Error skal indeholde en eksplicit handling, f.eks. overførsel eller slutopkald. Fejlhåndtering kun for meddelelser er ikke tilstrækkelig. Uden et deterministisk næste trin kan kunderne opleve tavshed eller fastlåst opkald, hvilket fører til forvirring og dårlige stemmeoplevelser.
Brug eksplicitte emne- og værktøjsbeskrivelser til at erklære ejerskab over dataindsamling. Få mere at vide under Skriv effektive emne- og værktøjsbeskrivelser.

Understøttelse af emnenoder

På følgende liste beskrives emnesupport i taleagenter i realtid:

Betingelsesnode

Funktion	Støtte
If/Else-struktur	Understøttes
Power Fx-udtryk	Understøttes
Genbearbejdning af spalteudfyldning	Understøttes

Meddelelse-node

Funktion	Støtte
Grundlæggende meddelelse	Understøttes
Meddelelsesvariationer	Understøttet
Indsættelse af variabel	Understøttet
SSML	Understøttes
Rige medier/adaptive kort	Ikke tilgængelig
Hurtige svar	Ikke tilgængelig

Spørgsmålsnode

Funktion	Støtte
Prompttekst	Understøttet
Automatisk hold	Ikke understøttet
Udfyldning af rubrik	Understøttet
Spring over adfærd/Grådig slotudfyldning	Understøttet
Reprompt/Forsøg igen	Understøttet
Ugyldig svarhåndtering	Understøttet
Emneafbrydelse	Understøttet
Bryd ind	Understøttet
Brugerdefineret meddelelse om omprompt	Understøttet
DTMF-adresseinput	Understøttet
Registrering af stilhed	Understøttet

HTTP-node

Funktion	Støtte
HTTP-metoder: GET, POST, PUT, PATCH, DELETE	Understøttes
URL-slutpunkter	Understøttes
Overskrifter og nyttedata	Understøttes
Fortolkning af svar og skema	Understøttes
Variabeltilknytning	Understøttes
Fejlhåndtering	Understøttes

Værktøjsnode

Funktion	Støtte
Power Automate-flow	Understøttet
Aktivering af værktøj	Understøttet
Input-/outputtilknytning	Understøttet
Ny prompt	Understøttet

Sæt variabelværdi node

Funktion	Støtte
Konstanttildeling	Understøttes
Tildeling af udtryk	Understøttes
Variabel til variabel	Understøttes

Emneadministrationsnode

Funktion	Støtte
Afslut det aktuelle emne	Understøttes
Afslut alle emner	Understøttes
Afslut samtale	Understøttes
Gå til trin	Understøttes
Brugerinput til genkendelsesformål	Understøttes
Gå til et andet emne	Understøttes

Overfør samtalenode

Funktion	Støtte
Overfør til agent	Understøttes
Overførsel af eksternt telefonnummer	Understøttes

Avanceret

Funktion	Støtte
Opret generative svar	Understøttes

Understøttelse af systemudløser

Udløse	Støtte	Detaljer
Ved start af samtale	Understøttet	Udløses, når en ny samtale starter
På Tal med repræsentant	Understøttet	Overførsler til menneskelig agent
Ukendt emne/på ukendt hensigt	Ikke understøttet	Fallback, når der ikke er noget emne der passer
OnSelectIntent (flere emner matcher)	Ikke understøttet	Fjernelse af flertydige udtryk mellem lignende emner
Nulstil samtale (OnSystemRedirect)	Understøttet	Rydder variabler og genstarter flowet
Ved log ind	Ikke understøttet
Ukendt DTMF-tasttryk	Understøttet	Ikke-tilknyttet tastaturfeltinput
Agenten vælger/Bruger siger et udtryk	Understøttet	Agent vælger emne baseret på hensigt
Der modtages en meddelelse	Ikke understøttet	Øger ventetiden
Der forekommer en brugerdefineret klienthændelse	Ikke understøttet	Kun ved sessionens start
Opdateringen af samtalen	Ikke understøttet	Medlemmer tilføjet eller fjernet, sessionsændringer
Det aktiveres	Ikke understøttet	Kræver synkron brugergrænseflade
Den omdirigeres	Understøttet
Brugeren er inaktiv i et stykke tid/lyddæmperregistrering	Understøttet	Brugers inaktivitetstimeout
En plan fuldføres	Ikke understøttet
AI-svar genereret	Ikke understøttet
Ved fejltilstand	Understøttet	Håndterer orkestreringsfejl

Overfør variabler mellem emner og sprogmodellen

Når du bruger emner i et hybridt samtaleflow, er det afgørende for at skabe pålidelige, stateful interaktioner, at du forstår, hvordan du overfører variabler mellem emner og realtidssprogmodellen.

Denne funktionalitet fungerer gennem følgende proces:

Du overfører inputvariabler, der er defineret for et emne, til emnet på aktiveringstidspunktet, så sprogmodellen kan levere strukturerede data til det deterministiske flow.
Du returnerer outputvariabler, der er defineret for et emne, til sprogmodellen i slutningen af emneudførelsen som strukturerede nøgleværdipar. Sprogmodellen indeholder disse output i samtalekonteksten, og du kan referere til dem i efterfølgende sving.
Output til værktøjskald følger det samme mønster: Du sender output til sprogmodellen i slutningen af værktøjsudførelsen, og de er tilgængelige til fremtidig brug i samtalekontekstvinduet.
Sprogmodellen udfyldes med samtalekontekst, herunder nøgleværdipar for værktøjskald. Du returnerer dog kun eksplicit definerede outputvariabler som strukturerede data. Du kan indsamle en værdi i et emne, f.eks. et bekræftet kontonummer. Definer denne værdi som et output. Hvis du ikke gør det, kan sprogmodellen ikke få adgang til den. Agenten beder muligvis den person, der ringer op, om de samme oplysninger igen senere.

Få mere at vide under Administrer emneinput og -output.

Understøttelse af flere sprog

Tilføj alle de sekundære sprog, du vil bruge. Lokaliseringsstrenge er ikke påkrævet for nogen flow i realtid. Men for deterministiske emnemeddelelser skal du angive de oversatte meddelelser. Få mere at vide i Konfigurer og opret flersprogede agenter.

Modellen i realtid kan forstå og reagere på mange sprog. Microsoft validerer dog ikke formelt alle sprog for generel tilgængelighed.

Fra og med april 2026 valideres følgende sprog formelt:

Engelsk (USA) (en-US)
Spansk (USA) (es-US)
Arabisk
Portugisisk (Brasilien) (pt-BR)
Italiensk (Italien) (it-IT)
Tysk (Tyskland) (de-DE)
Nederlandsk (Nederlandene) (nl-NL)
Fransk (Canada) (fr-CA)

Microsoft fortsætter med at validere andre sprog og tilføjer dem, når certificeringen er fuldført. Du kan tilføje et hvilket som helst sprog, der understøttes af Copilot Studio. Sprog, der ikke er fuldt certificeret i forhold til kvalitet på GA-niveau, skal dog testes grundigt, før udrulningen af produktionen.

Vigtigt!

Teknisk sprogfunktion er ikke lig med et understøttet eller certificeret sprog. Hvis du har til hensigt at udrulle agenter på andre sprog end engelsk, skal du udføre omfattende test med opkald fra den virkelige verden og opkaldsflow, før du går live.

Kontekstvariabler

En stemmeagent i realtid understøtter kontekstvariabler, der gør det muligt for den at fungere mere intelligent ved at medbringe oplysninger om opkaldet, opkaldet og den aktuelle samtale. Systemet leverer automatisk et begrænset sæt opkalds- og samtalekontekst til modellen på kørselstidspunktet. Dette sæt omfatter:

Kontekstvariabel	Beskrivelse
Kanal-id	Identificerer den kommunikationskanal, der bruges til interaktionen. Denne identifikation hjælper modellen med at forstå, at samtalen foregår via en tale til tale-kanal.
Opkaldstelefonnummer (ANI)	Opkaldets oprindelige telefonnummer. Systemet kan bruge disse oplysninger til at understøtte opkaldsidentifikationsscenarier.
Opkaldsnummer (DNIS)	Destinationstelefonnummeret, som opkalderen ringede til. Disse oplysninger hjælper med at skelne mellem, hvilket forretningsnummer eller hvilket indgangspunkt der blev nået.
Samtale-id	Et entydigt id for den aktive opkaldssession. Brug denne værdi til at korrelere og bevare kontinuiteten i en enkelt samtale.
SIP-overskrifter	Et sæt understøttede SIP-headernøgleværdipar, der er knyttet til opkaldet. Sættet indeholder kun ikke-følsomme og understøttede overskrifter.
Dags dato (UTC)	Den aktuelle dato i UTC (Coordinated Universal Time), der leveres på kørselstidspunktet for at tillade datoorienterede svar.
Aktuelt klokkeslæt (UTC)	Det aktuelle klokkeslæt i UTC (Coordinated Universal Time), der leveres på kørselstidspunktet for at tillade tidsorienterede svar.

For alle andre kontekstvariabler skal du følge de trin, der er beskrevet i Konfigurer kontekstvariabler for agenter.

Agentstemme

Vælg den stemme, som din agent bruger, ved at vælge din agent, og gå til Indstillinger>Stemme>vælg stemme. Stemmeagenter i realtid understøtter følgende stemmer:

Legering
Ash
Balladen
Koral
Ekko
Salvie
Glitre
Vers
Marin
Cedertræ

Bemærkning

Agentens stemme er til din stemmeagent i realtid og er ikke den, der er konfigureret i Copilot Service Administration.
Hvis du vil matche dine Dynamics-systembeskeder med din stemmeagent i realtid, skal du kun bruge følgende understøttede stemmer: Legering, Ekko, Shimmer eller Ash.

Talefølsomhed

VAD (Speech Sensitivity Voice Activity Detection) bestemmer, hvornår agenten skal svare, når opkalderen er færdig med at tale.

Om VAD-typer

Stemmeagenter i realtid understøtter to VAD-tilgange:

Skærmbillede af dialogboksen Talefølsomhed.

Serverbaseret VAD – baseret på lyd (tavshed)

Registrerer slutningen af tale baseret på lydsignaler (stilhedens varighed, lydstyrke)
Reagerer hurtigt, når der registreres tavshed
Deterministisk, forudsigelig adfærd
Bedst til strukturerede interaktioner, korte svar, støjende miljøer

Semantisk VAD – baseret på sætningskontekst

Bestemmer fuldførelsen af turn baseret på betydningen af det, der blev sagt
Evaluerer, om kalderen har fuldført sin tanke
Tilpasser sig naturlige pauser, fyldord, efterstillet tale
Bedst til: Samtaleinteraktioner, komplekse spørgsmål, åbne diskussioner

Vælg den rigtige VAD

Brug serverbaseret VAD, når alle følgende betingelser er opfyldt:

Interaktioner er strukturerede (menunavigation i IVR-stil).
Svarene er korte og forudsigelige.
Baggrundsstøj er et problem (semantisk VAD kan vente for længe).
Du vil have hurtig og præcis skift af tur.

Brug semantisk VAD, når alle følgende betingelser er opfyldt:

Samtaler er åbne.
Opkaldere kan tøve eller bruge fyldstof ord ("um", "lad mig tænke ...").
Spørgsmål er komplekse (opkaldere forklarer situationer).
Naturligt samtaleflow prioriteres.

Konfigurer serverbaseret VAD

Gå til Indstillinger>Tale>Telefonopsætning>Taleinput>Følsomhed>baseret på lyd (stilhed)

Skærmbillede af dialogboksen Talefølsomhed, når den er angivet til Baseret på lyd (stilhed).

Parameter	Beskrivelse	Standard	Anbefalet område
Grænseværdi	Følsomhed over for stemme i forhold til støj (0-1 skala)	0.6	0.5-0.7
Præfiksmargen (ms)	Lyd, der optages, før talen starter	300 ms	200-500 ms
Tavshedsvarighed (ms)	Der kræves tavshed for at afslutte svinget	750 ms	750-1000 ms

Grænseværdi

Lavere (0,3-0,4): Mere følsom; opfanger stille tale, kan udløse baggrundsstøj.
Højere (0,7-0,9): Mindre følsom; kræver højere tale, reducerer falske udløsere.
Anbefalet: Start med 0,5; øg hvis baggrundsstøj forårsager falske udløsninger.

Præfiksudfyldning

Registrerer lyd før taleregistrering (forhindrer, at første ord afbrydes).
Lavere (200 ms): Hurtigere svar; kan gå glip af den første staves.
Højere (500 ms): Sikrere hentning; en lille forsinkelse.
Anbefalet: 300 ms (en god balance).

Tavshedsvarighed

Hvor lang tid opkaldet skal være uovervåget, før agenten svarer.
Lavere (500 ms): Hurtig skift af tur, afbryder muligvis, hvis den, der ringer op, holder pause midt i tanken.
Højere (1000 ms): Mere patient; føler sig måske langsom.
Anbefalet: Start med 750 ms.

Konfigurer semantisk VAD

Gå til>Stemmekontrol>Taleinput>Baseret på sætningskontekst.

Skærmbillede af dialogboksen Talefølsomhed, når den er angivet til Baseret på sætningskontekst.

Parameter: Iver (hvor hurtigt agenten reagerer efter semantisk fuldførelse)

Indstilling	Adfærd	Bedst til
Lav	Venter længere, meget tålmodig	Opkaldere, der tænker højt, hyppige pauser
Mellem	Balanceret (standardindstilling)	Generelle samtaler
Høj	Reagerer hurtigt	Hurtige interaktioner, enkle spørgsmål

DTMF-konfiguration

Dual-Tone DTMF (Multi-Frequency) gør det muligt for opkaldere at angive oplysninger ved hjælp af deres telefontastatur.

Du kan slå DTMF til for din agent på både emneniveau og globalt niveau. Hvis du vil angive den på globalt niveau, skal du vælge din agent og gå til Indstillinger>>>DTMF.

Hvis du vil angive den pr. emnenode, kan du få mere at vide under Slå DTMF-understøttelse til for din stemmeaktiverede agent.

Hvis du vil understøtte pålidelig fuldførelse af input, kan du konfigurere funktionsmåden for DTMF-timing og afslutning. Denne konfiguration omfatter en intercifret timeout, som definerer, hvor længe systemet venter mellem tastetryk, og et valgfrit afslutningstegn (f.eks # . eller *), der eksplicit signalerer slutningen af inputtet. Når du bruger et afslutningstegn, behandler systemet input med det samme uden at vente på timeout.

Registrering af stilhed

Registrering af lydlyd gør det muligt for stemmeagenter i realtid at genkende, når en opkalder ikke angiver noget input i en bestemt periode. Konfigurer lyddæmperregistrering som en global stemmeindstilling for agenten ved at gå til Indstillinger>Funktionsmåde> forstemmesamtale>Lyddæmper.

Tavshedstimeren starter, når agenten er færdig med at tale og registrerer ingen tale eller DTMF-input fra kalderen. Hvis timeout for tavshed er nået, følger agenten det konfigurerede emne registrering af stilhed.

Vigtigt!

Registrering af tavshed er ikke aktiveret som standard. Hvis brugeren ikke taler, venter agenten på ubestemt tid uden at spørge. Aktivér eksplicit registrering af tavshed, og konfigurer en meddelelse, der skal sendes igen, for at håndtere uovervåget opkald.
Standardtimeout for registrering af stilhed er 7.000 ms (7 sekunder). Valider denne værdi i forhold til dit specifikke use case- og kaldermiljø, før du udruller til produktion. Syv sekunder kan føles for længe for nogle opkaldere eller for korte for andre, afhængigt af karakteren af interaktionen, f.eks. komplekse spørgsmål eller støjende miljøer. Test med opkaldsdata fra den virkelige verden for at bestemme den relevante grænse for dit scenarie.
Før du aktiverer registrering af tavshed, skal du sikre dig, at den funktionsmåde, du konfigurerer i emnet registrering af tavshed (f.eks. Eskaler, Læg på, Reprompt), er bevidst og passende for din use case. Forkert konfigureret tilbagefaldsadfærd, såsom utilsigtet at sætte tilbagefaldet til eskalering, når hensigten er at lægge på, eller omvendt, kan resultere i uventede opkaldsresultater.

Forsinkelsesmeddelelse

Føj ventetidsmeddelelse eller musik til din agent, når handlinger i baggrunden tager længere tid end forventet. Hvis du vil konfigurere ventetidsmeddelelser, skal du gå til Indstillinger>>Talesamtalefunktionsventetidsbeskeder>.

Evaluering af stemmeagenter i realtid (prøveversion)

Taleagenter i realtid understøtter afsendelse af tekst under evaluering, men lydbehandling understøttes ikke.

Feedback

Var denne side nyttig?

Last updated on 2026-05-13

Konfigurer stemmeagenter i realtid

Konfigurer og aktivér stemme i realtid

Viden og værktøjer

Indlejrede agenter (prøveversion)

Emner

Bedste praksis, når du bruger emner med stemmeagenter i realtid

Understøttelse af emnenoder

Betingelsesnode

Meddelelse-node

Spørgsmålsnode

HTTP-node

Værktøjsnode

Sæt variabelværdi node

Emneadministrationsnode

Overfør samtalenode

Avanceret

Understøttelse af systemudløser

Overfør variabler mellem emner og sprogmodellen

Understøttelse af flere sprog

Kontekstvariabler

Agentstemme

Talefølsomhed

Om VAD-typer

Vælg den rigtige VAD

Konfigurer serverbaseret VAD

Grænseværdi

Præfiksudfyldning

Tavshedsvarighed

Konfigurer semantisk VAD

DTMF-konfiguration

Registrering af stilhed

Forsinkelsesmeddelelse

Evaluering af stemmeagenter i realtid (prøveversion)

Feedback

Yderligere ressourcer