Bemærk
Adgang til denne side kræver godkendelse. Du kan prøve at logge på eller ændre mapper.
Adgang til denne side kræver godkendelse. Du kan prøve at ændre mapper.
[Denne artikel er foreløbig dokumentation og kan ændres.]
Konfigurer en stemmeagent i realtid ved at aktivere stemmen i realtid, angive kerneindstillinger og derefter konfigurere funktioner som emner, flersproget support, DTMF og lyddæmpende registrering.
Konfigurer og aktivér stemme i realtid
Opret en ny agent, og konfigurer de grundlæggende oplysninger, f.eks. et beskrivende navn og agentens formål i beskrivelsen.
Gå til agentens stemmeindstillinger, og slå Aktivér stemme til, og vælg derefter Stemmei Stemmetype. Få mere at vide i Vælg, hvordan tale skal håndteres.
Vigtigt!
Dette er en engangsvalg. Når du har valgt Stemme i realtid, kan du ikke skifte tilbage til Grundlæggende stemme. Hvis du vil bruge Basic-stemmen, skal du oprette en ny agent.
Gå til agentens sikkerhedsindstillinger , og vælg Ingen godkendelse.
Viden og værktøjer
Du kan konfigurere din agent til at bruge viden og værktøjer. Få mere at vide i oversigten over videnkilder, Føj værktøjer til brugerdefinerede agenter og Værktøjer, viden, MCP og API.
Indlejrede agenter (prøveversion)
Stemmeagenter i realtid understøtter kun børneagenter.
Vigtigt!
Sørg for, at beskrivelser af underordnede agenter ikke overlapper emnebeskrivelser. Definer eksplicit aktiveringsrækkefølgen i agentens instruktioner.
Emner
Taleagenter i realtid understøtter alle emner , der er konfigureret i Copilot Studio. Brug emner til at definere deterministiske funktionsmåder, f.eks. hilsener, forretningsregler og eskalering, mens stemmemodellen i realtid administrerer samtalesvar på kørselstidspunktet. Få mere at vide under Vælg, hvordan du styrer samtalen.
Bedste praksis, når du bruger emner med stemmeagenter i realtid
Brug kun emner, når deterministisk funktionsmåde er påkrævet.
Brug statisk tekst i lykønskningsmeddelelser for at få det hurtigste svar. Dynamiske meddelelser med variabler og udtryk øger den indledende ventetid.
Samtalestart er aktiveret som standard. Hvis du vil have, at stemmemodellen i realtid skal håndtere hilsenen, skal du deaktivere emnet Samtalestart. Ellers afspilles den hilsen, der er konfigureret i emnet Samtalestart, i stedet for en hilsen til stemmemodellen.
Lad stemmemodellen i realtid håndtere generelle samtale- og opfølgningsspørgsmål.
Emnet On Error skal indeholde en eksplicit handling, f.eks. overførsel eller slutopkald. Fejlhåndtering kun for meddelelser er ikke tilstrækkelig. Uden et deterministisk næste trin kan kunderne opleve tavshed eller fastlåst opkald, hvilket fører til forvirring og dårlige stemmeoplevelser.
Brug eksplicitte emne- og værktøjsbeskrivelser til at erklære ejerskab over dataindsamling. Få mere at vide under Skriv effektive emne- og værktøjsbeskrivelser.
Understøttelse af emnenoder
På følgende liste beskrives emnesupport i taleagenter i realtid:
Betingelsesnode
| Funktion | Støtte |
|---|---|
| If/Else-struktur | Understøttes |
| Power Fx-udtryk | Understøttes |
| Genbearbejdning af spalteudfyldning | Understøttes |
Meddelelse-node
| Funktion | Støtte |
|---|---|
| Grundlæggende meddelelse | Understøttes |
| Meddelelsesvariationer | Understøttet |
| Indsættelse af variabel | Understøttet |
| SSML | Understøttes |
| Rige medier/adaptive kort | Ikke tilgængelig |
| Hurtige svar | Ikke tilgængelig |
Spørgsmålsnode
| Funktion | Støtte |
|---|---|
| Prompttekst | Understøttet |
| Automatisk hold | Ikke understøttet |
| Udfyldning af rubrik | Understøttet |
| Spring over adfærd/Grådig slotudfyldning | Understøttet |
| Reprompt/Forsøg igen | Understøttet |
| Ugyldig svarhåndtering | Understøttet |
| Emneafbrydelse | Understøttet |
| Bryd ind | Understøttet |
| Brugerdefineret meddelelse om omprompt | Understøttet |
| DTMF-adresseinput | Understøttet |
| Registrering af stilhed | Understøttet |
HTTP-node
| Funktion | Støtte |
|---|---|
| HTTP-metoder: GET, POST, PUT, PATCH, DELETE | Understøttes |
| URL-slutpunkter | Understøttes |
| Overskrifter og nyttedata | Understøttes |
| Fortolkning af svar og skema | Understøttes |
| Variabeltilknytning | Understøttes |
| Fejlhåndtering | Understøttes |
Værktøjsnode
| Funktion | Støtte |
|---|---|
| Power Automate-flow | Understøttet |
| Aktivering af værktøj | Understøttet |
| Input-/outputtilknytning | Understøttet |
| Ny prompt | Understøttet |
Sæt variabelværdi node
| Funktion | Støtte |
|---|---|
| Konstanttildeling | Understøttes |
| Tildeling af udtryk | Understøttes |
| Variabel til variabel | Understøttes |
Emneadministrationsnode
| Funktion | Støtte |
|---|---|
| Afslut det aktuelle emne | Understøttes |
| Afslut alle emner | Understøttes |
| Afslut samtale | Understøttes |
| Gå til trin | Understøttes |
| Brugerinput til genkendelsesformål | Understøttes |
| Gå til et andet emne | Understøttes |
Overfør samtalenode
| Funktion | Støtte |
|---|---|
| Overfør til agent | Understøttes |
| Overførsel af eksternt telefonnummer | Understøttes |
Avanceret
| Funktion | Støtte |
|---|---|
| Opret generative svar | Understøttes |
Understøttelse af systemudløser
| Udløse | Støtte | Detaljer |
|---|---|---|
| Ved start af samtale | Understøttet | Udløses, når en ny samtale starter |
| På Tal med repræsentant | Understøttet | Overførsler til menneskelig agent |
| Ukendt emne/på ukendt hensigt | Ikke understøttet | Fallback, når der ikke er noget emne der passer |
| OnSelectIntent (flere emner matcher) | Ikke understøttet | Fjernelse af flertydige udtryk mellem lignende emner |
| Nulstil samtale (OnSystemRedirect) | Understøttet | Rydder variabler og genstarter flowet |
| Ved log ind | Ikke understøttet | |
| Ukendt DTMF-tasttryk | Understøttet | Ikke-tilknyttet tastaturfeltinput |
| Agenten vælger/Bruger siger et udtryk | Understøttet | Agent vælger emne baseret på hensigt |
| Der modtages en meddelelse | Ikke understøttet | Øger ventetiden |
| Der forekommer en brugerdefineret klienthændelse | Ikke understøttet | Kun ved sessionens start |
| Opdateringen af samtalen | Ikke understøttet | Medlemmer tilføjet eller fjernet, sessionsændringer |
| Det aktiveres | Ikke understøttet | Kræver synkron brugergrænseflade |
| Den omdirigeres | Understøttet | |
| Brugeren er inaktiv i et stykke tid/lyddæmperregistrering | Understøttet | Brugers inaktivitetstimeout |
| En plan fuldføres | Ikke understøttet | |
| AI-svar genereret | Ikke understøttet | |
| Ved fejltilstand | Understøttet | Håndterer orkestreringsfejl |
Overfør variabler mellem emner og sprogmodellen
Når du bruger emner i et hybridt samtaleflow, er det afgørende for at skabe pålidelige, stateful interaktioner, at du forstår, hvordan du overfører variabler mellem emner og realtidssprogmodellen.
Denne funktionalitet fungerer gennem følgende proces:
Du overfører inputvariabler, der er defineret for et emne, til emnet på aktiveringstidspunktet, så sprogmodellen kan levere strukturerede data til det deterministiske flow.
Du returnerer outputvariabler, der er defineret for et emne, til sprogmodellen i slutningen af emneudførelsen som strukturerede nøgleværdipar. Sprogmodellen indeholder disse output i samtalekonteksten, og du kan referere til dem i efterfølgende sving.
Output til værktøjskald følger det samme mønster: Du sender output til sprogmodellen i slutningen af værktøjsudførelsen, og de er tilgængelige til fremtidig brug i samtalekontekstvinduet.
Sprogmodellen udfyldes med samtalekontekst, herunder nøgleværdipar for værktøjskald. Du returnerer dog kun eksplicit definerede outputvariabler som strukturerede data. Du kan indsamle en værdi i et emne, f.eks. et bekræftet kontonummer. Definer denne værdi som et output. Hvis du ikke gør det, kan sprogmodellen ikke få adgang til den. Agenten beder muligvis den person, der ringer op, om de samme oplysninger igen senere.
Få mere at vide under Administrer emneinput og -output.
Understøttelse af flere sprog
Tilføj alle de sekundære sprog, du vil bruge. Lokaliseringsstrenge er ikke påkrævet for nogen flow i realtid. Men for deterministiske emnemeddelelser skal du angive de oversatte meddelelser. Få mere at vide i Konfigurer og opret flersprogede agenter.
Modellen i realtid kan forstå og reagere på mange sprog. Microsoft validerer dog ikke formelt alle sprog for generel tilgængelighed.
Fra og med april 2026 valideres følgende sprog formelt:
- Engelsk (USA) (en-US)
- Spansk (USA) (es-US)
- Arabisk
- Portugisisk (Brasilien) (pt-BR)
- Italiensk (Italien) (it-IT)
- Tysk (Tyskland) (de-DE)
- Nederlandsk (Nederlandene) (nl-NL)
- Fransk (Canada) (fr-CA)
Microsoft fortsætter med at validere andre sprog og tilføjer dem, når certificeringen er fuldført. Du kan tilføje et hvilket som helst sprog, der understøttes af Copilot Studio. Sprog, der ikke er fuldt certificeret i forhold til kvalitet på GA-niveau, skal dog testes grundigt, før udrulningen af produktionen.
Vigtigt!
Teknisk sprogfunktion er ikke lig med et understøttet eller certificeret sprog. Hvis du har til hensigt at udrulle agenter på andre sprog end engelsk, skal du udføre omfattende test med opkald fra den virkelige verden og opkaldsflow, før du går live.
Kontekstvariabler
En stemmeagent i realtid understøtter kontekstvariabler, der gør det muligt for den at fungere mere intelligent ved at medbringe oplysninger om opkaldet, opkaldet og den aktuelle samtale. Systemet leverer automatisk et begrænset sæt opkalds- og samtalekontekst til modellen på kørselstidspunktet. Dette sæt omfatter:
| Kontekstvariabel | Beskrivelse |
|---|---|
| Kanal-id | Identificerer den kommunikationskanal, der bruges til interaktionen. Denne identifikation hjælper modellen med at forstå, at samtalen foregår via en tale til tale-kanal. |
| Opkaldstelefonnummer (ANI) | Opkaldets oprindelige telefonnummer. Systemet kan bruge disse oplysninger til at understøtte opkaldsidentifikationsscenarier. |
| Opkaldsnummer (DNIS) | Destinationstelefonnummeret, som opkalderen ringede til. Disse oplysninger hjælper med at skelne mellem, hvilket forretningsnummer eller hvilket indgangspunkt der blev nået. |
| Samtale-id | Et entydigt id for den aktive opkaldssession. Brug denne værdi til at korrelere og bevare kontinuiteten i en enkelt samtale. |
| SIP-overskrifter | Et sæt understøttede SIP-headernøgleværdipar, der er knyttet til opkaldet. Sættet indeholder kun ikke-følsomme og understøttede overskrifter. |
| Dags dato (UTC) | Den aktuelle dato i UTC (Coordinated Universal Time), der leveres på kørselstidspunktet for at tillade datoorienterede svar. |
| Aktuelt klokkeslæt (UTC) | Det aktuelle klokkeslæt i UTC (Coordinated Universal Time), der leveres på kørselstidspunktet for at tillade tidsorienterede svar. |
For alle andre kontekstvariabler skal du følge de trin, der er beskrevet i Konfigurer kontekstvariabler for agenter.
Agentstemme
Vælg den stemme, som din agent bruger, ved at vælge din agent, og gå til Indstillinger>Stemme>vælg stemme. Stemmeagenter i realtid understøtter følgende stemmer:
- Legering
- Ash
- Balladen
- Koral
- Ekko
- Salvie
- Glitre
- Vers
- Marin
- Cedertræ
Bemærkning
- Agentens stemme er til din stemmeagent i realtid og er ikke den, der er konfigureret i Copilot Service Administration.
- Hvis du vil matche dine Dynamics-systembeskeder med din stemmeagent i realtid, skal du kun bruge følgende understøttede stemmer: Legering, Ekko, Shimmer eller Ash.
Talefølsomhed
VAD (Speech Sensitivity Voice Activity Detection) bestemmer, hvornår agenten skal svare, når opkalderen er færdig med at tale.
Om VAD-typer
Stemmeagenter i realtid understøtter to VAD-tilgange:
Serverbaseret VAD – baseret på lyd (tavshed)
Registrerer slutningen af tale baseret på lydsignaler (stilhedens varighed, lydstyrke)
Reagerer hurtigt, når der registreres tavshed
Deterministisk, forudsigelig adfærd
Bedst til strukturerede interaktioner, korte svar, støjende miljøer
Semantisk VAD – baseret på sætningskontekst
Bestemmer fuldførelsen af turn baseret på betydningen af det, der blev sagt
Evaluerer, om kalderen har fuldført sin tanke
Tilpasser sig naturlige pauser, fyldord, efterstillet tale
Bedst til: Samtaleinteraktioner, komplekse spørgsmål, åbne diskussioner
Vælg den rigtige VAD
Brug serverbaseret VAD, når alle følgende betingelser er opfyldt:
Interaktioner er strukturerede (menunavigation i IVR-stil).
Svarene er korte og forudsigelige.
Baggrundsstøj er et problem (semantisk VAD kan vente for længe).
Du vil have hurtig og præcis skift af tur.
Brug semantisk VAD, når alle følgende betingelser er opfyldt:
Samtaler er åbne.
Opkaldere kan tøve eller bruge fyldstof ord ("um", "lad mig tænke ...").
Spørgsmål er komplekse (opkaldere forklarer situationer).
Naturligt samtaleflow prioriteres.
Konfigurer serverbaseret VAD
Gå til Indstillinger>Tale>Telefonopsætning>Taleinput>Følsomhed>baseret på lyd (stilhed)
| Parameter | Beskrivelse | Standard | Anbefalet område |
|---|---|---|---|
| Grænseværdi | Følsomhed over for stemme i forhold til støj (0-1 skala) | 0.6 | 0.5-0.7 |
| Præfiksmargen (ms) | Lyd, der optages, før talen starter | 300 ms | 200-500 ms |
| Tavshedsvarighed (ms) | Der kræves tavshed for at afslutte svinget | 750 ms | 750-1000 ms |
Grænseværdi
Lavere (0,3-0,4): Mere følsom; opfanger stille tale, kan udløse baggrundsstøj.
Højere (0,7-0,9): Mindre følsom; kræver højere tale, reducerer falske udløsere.
Anbefalet: Start med 0,5; øg hvis baggrundsstøj forårsager falske udløsninger.
Præfiksudfyldning
Registrerer lyd før taleregistrering (forhindrer, at første ord afbrydes).
Lavere (200 ms): Hurtigere svar; kan gå glip af den første staves.
Højere (500 ms): Sikrere hentning; en lille forsinkelse.
Anbefalet: 300 ms (en god balance).
Tavshedsvarighed
Hvor lang tid opkaldet skal være uovervåget, før agenten svarer.
Lavere (500 ms): Hurtig skift af tur, afbryder muligvis, hvis den, der ringer op, holder pause midt i tanken.
Højere (1000 ms): Mere patient; føler sig måske langsom.
Anbefalet: Start med 750 ms.
Konfigurer semantisk VAD
Gå til>Stemmekontrol>Taleinput>Baseret på sætningskontekst.
Parameter: Iver (hvor hurtigt agenten reagerer efter semantisk fuldførelse)
| Indstilling | Adfærd | Bedst til |
|---|---|---|
| Lav | Venter længere, meget tålmodig | Opkaldere, der tænker højt, hyppige pauser |
| Mellem | Balanceret (standardindstilling) | Generelle samtaler |
| Høj | Reagerer hurtigt | Hurtige interaktioner, enkle spørgsmål |
DTMF-konfiguration
Dual-Tone DTMF (Multi-Frequency) gør det muligt for opkaldere at angive oplysninger ved hjælp af deres telefontastatur.
Du kan slå DTMF til for din agent på både emneniveau og globalt niveau. Hvis du vil angive den på globalt niveau, skal du vælge din agent og gå til Indstillinger>>>DTMF.
Hvis du vil angive den pr. emnenode, kan du få mere at vide under Slå DTMF-understøttelse til for din stemmeaktiverede agent.
Hvis du vil understøtte pålidelig fuldførelse af input, kan du konfigurere funktionsmåden for DTMF-timing og afslutning. Denne konfiguration omfatter en intercifret timeout, som definerer, hvor længe systemet venter mellem tastetryk, og et valgfrit afslutningstegn (f.eks # . eller *), der eksplicit signalerer slutningen af inputtet. Når du bruger et afslutningstegn, behandler systemet input med det samme uden at vente på timeout.
Registrering af stilhed
Registrering af lydlyd gør det muligt for stemmeagenter i realtid at genkende, når en opkalder ikke angiver noget input i en bestemt periode. Konfigurer lyddæmperregistrering som en global stemmeindstilling for agenten ved at gå til Indstillinger>Funktionsmåde> forstemmesamtale>Lyddæmper.
Tavshedstimeren starter, når agenten er færdig med at tale og registrerer ingen tale eller DTMF-input fra kalderen. Hvis timeout for tavshed er nået, følger agenten det konfigurerede emne registrering af stilhed.
Vigtigt!
Registrering af tavshed er ikke aktiveret som standard. Hvis brugeren ikke taler, venter agenten på ubestemt tid uden at spørge. Aktivér eksplicit registrering af tavshed, og konfigurer en meddelelse, der skal sendes igen, for at håndtere uovervåget opkald.
Standardtimeout for registrering af stilhed er 7.000 ms (7 sekunder). Valider denne værdi i forhold til dit specifikke use case- og kaldermiljø, før du udruller til produktion. Syv sekunder kan føles for længe for nogle opkaldere eller for korte for andre, afhængigt af karakteren af interaktionen, f.eks. komplekse spørgsmål eller støjende miljøer. Test med opkaldsdata fra den virkelige verden for at bestemme den relevante grænse for dit scenarie.
Før du aktiverer registrering af tavshed, skal du sikre dig, at den funktionsmåde, du konfigurerer i emnet registrering af tavshed (f.eks. Eskaler, Læg på, Reprompt), er bevidst og passende for din use case. Forkert konfigureret tilbagefaldsadfærd, såsom utilsigtet at sætte tilbagefaldet til eskalering, når hensigten er at lægge på, eller omvendt, kan resultere i uventede opkaldsresultater.
Forsinkelsesmeddelelse
Føj ventetidsmeddelelse eller musik til din agent, når handlinger i baggrunden tager længere tid end forventet. Hvis du vil konfigurere ventetidsmeddelelser, skal du gå til Indstillinger>>Talesamtalefunktionsventetidsbeskeder>.
Evaluering af stemmeagenter i realtid (prøveversion)
Taleagenter i realtid understøtter afsendelse af tekst under evaluering, men lydbehandling understøttes ikke.