Konfigurer stemmeagenter i realtid

[Denne artikel er foreløbig dokumentation og kan ændres.]

Konfigurer en stemmeagent i realtid ved at aktivere stemmen i realtid, angive kerneindstillinger og derefter konfigurere funktioner som emner, flersproget support, DTMF og lyddæmpende registrering.

Konfigurer og aktivér stemme i realtid

  1. Opret en ny agent, og konfigurer de grundlæggende oplysninger, f.eks. et beskrivende navn og agentens formål i beskrivelsen.

  2. Gå til agentens stemmeindstillinger, og slå Aktivér stemme til, og vælg derefter Stemmei Stemmetype. Få mere at vide i Vælg, hvordan tale skal håndteres.

    Vigtigt!

    Dette er en engangsvalg. Når du har valgt Stemme i realtid, kan du ikke skifte tilbage til Grundlæggende stemme. Hvis du vil bruge Basic-stemmen, skal du oprette en ny agent.

    Skærmbillede af en agents indstillinger, der fremhæver stemmeindstillingen Realtime.

  3. Gå til agentens sikkerhedsindstillinger , og vælg Ingen godkendelse.

Viden og værktøjer

Du kan konfigurere din agent til at bruge viden og værktøjer. Få mere at vide i oversigten over videnkilder, Føj værktøjer til brugerdefinerede agenter og Værktøjer, viden, MCP og API.

Indlejrede agenter (prøveversion)

Stemmeagenter i realtid understøtter kun børneagenter.

Vigtigt!

Sørg for, at beskrivelser af underordnede agenter ikke overlapper emnebeskrivelser. Definer eksplicit aktiveringsrækkefølgen i agentens instruktioner.

Emner

Taleagenter i realtid understøtter alle emner , der er konfigureret i Copilot Studio. Brug emner til at definere deterministiske funktionsmåder, f.eks. hilsener, forretningsregler og eskalering, mens stemmemodellen i realtid administrerer samtalesvar på kørselstidspunktet. Få mere at vide under Vælg, hvordan du styrer samtalen.

Bedste praksis, når du bruger emner med stemmeagenter i realtid

  • Brug kun emner, når deterministisk funktionsmåde er påkrævet.

  • Brug statisk tekst i lykønskningsmeddelelser for at få det hurtigste svar. Dynamiske meddelelser med variabler og udtryk øger den indledende ventetid.

  • Samtalestart er aktiveret som standard. Hvis du vil have, at stemmemodellen i realtid skal håndtere hilsenen, skal du deaktivere emnet Samtalestart. Ellers afspilles den hilsen, der er konfigureret i emnet Samtalestart, i stedet for en hilsen til stemmemodellen.

  • Lad stemmemodellen i realtid håndtere generelle samtale- og opfølgningsspørgsmål.

  • Emnet On Error skal indeholde en eksplicit handling, f.eks. overførsel eller slutopkald. Fejlhåndtering kun for meddelelser er ikke tilstrækkelig. Uden et deterministisk næste trin kan kunderne opleve tavshed eller fastlåst opkald, hvilket fører til forvirring og dårlige stemmeoplevelser.

  • Brug eksplicitte emne- og værktøjsbeskrivelser til at erklære ejerskab over dataindsamling. Få mere at vide under Skriv effektive emne- og værktøjsbeskrivelser.

Understøttelse af emnenoder

På følgende liste beskrives emnesupport i taleagenter i realtid:

Betingelsesnode

Funktion Støtte
If/Else-struktur Understøttes
Power Fx-udtryk Understøttes
Genbearbejdning af spalteudfyldning Understøttes

Meddelelse-node

Funktion Støtte
Grundlæggende meddelelse Understøttes
Meddelelsesvariationer Understøttet
Indsættelse af variabel Understøttet
SSML Understøttes
Rige medier/adaptive kort Ikke tilgængelig
Hurtige svar Ikke tilgængelig

Spørgsmålsnode

Funktion Støtte
Prompttekst Understøttet
Automatisk hold Ikke understøttet
Udfyldning af rubrik Understøttet
Spring over adfærd/Grådig slotudfyldning Understøttet
Reprompt/Forsøg igen Understøttet
Ugyldig svarhåndtering Understøttet
Emneafbrydelse Understøttet
Bryd ind Understøttet
Brugerdefineret meddelelse om omprompt Understøttet
DTMF-adresseinput Understøttet
Registrering af stilhed Understøttet

HTTP-node

Funktion Støtte
HTTP-metoder: GET, POST, PUT, PATCH, DELETE Understøttes
URL-slutpunkter Understøttes
Overskrifter og nyttedata Understøttes
Fortolkning af svar og skema Understøttes
Variabeltilknytning Understøttes
Fejlhåndtering Understøttes

Værktøjsnode

Funktion Støtte
Power Automate-flow Understøttet
Aktivering af værktøj Understøttet
Input-/outputtilknytning Understøttet
Ny prompt Understøttet

Sæt variabelværdi node

Funktion Støtte
Konstanttildeling Understøttes
Tildeling af udtryk Understøttes
Variabel til variabel Understøttes

Emneadministrationsnode

Funktion Støtte
Afslut det aktuelle emne Understøttes
Afslut alle emner Understøttes
Afslut samtale Understøttes
Gå til trin Understøttes
Brugerinput til genkendelsesformål Understøttes
Gå til et andet emne Understøttes

Overfør samtalenode

Funktion Støtte
Overfør til agent Understøttes
Overførsel af eksternt telefonnummer Understøttes

Avanceret

Funktion Støtte
Opret generative svar Understøttes

Understøttelse af systemudløser

Udløse Støtte Detaljer
Ved start af samtale Understøttet Udløses, når en ny samtale starter
På Tal med repræsentant Understøttet Overførsler til menneskelig agent
Ukendt emne/på ukendt hensigt Ikke understøttet Fallback, når der ikke er noget emne der passer
OnSelectIntent (flere emner matcher) Ikke understøttet Fjernelse af flertydige udtryk mellem lignende emner
Nulstil samtale (OnSystemRedirect) Understøttet Rydder variabler og genstarter flowet
Ved log ind Ikke understøttet
Ukendt DTMF-tasttryk Understøttet Ikke-tilknyttet tastaturfeltinput
Agenten vælger/Bruger siger et udtryk Understøttet Agent vælger emne baseret på hensigt
Der modtages en meddelelse Ikke understøttet Øger ventetiden
Der forekommer en brugerdefineret klienthændelse Ikke understøttet Kun ved sessionens start
Opdateringen af samtalen Ikke understøttet Medlemmer tilføjet eller fjernet, sessionsændringer
Det aktiveres Ikke understøttet Kræver synkron brugergrænseflade
Den omdirigeres Understøttet
Brugeren er inaktiv i et stykke tid/lyddæmperregistrering Understøttet Brugers inaktivitetstimeout
En plan fuldføres Ikke understøttet
AI-svar genereret Ikke understøttet
Ved fejltilstand Understøttet Håndterer orkestreringsfejl

Overfør variabler mellem emner og sprogmodellen

Når du bruger emner i et hybridt samtaleflow, er det afgørende for at skabe pålidelige, stateful interaktioner, at du forstår, hvordan du overfører variabler mellem emner og realtidssprogmodellen.

Denne funktionalitet fungerer gennem følgende proces:

  • Du overfører inputvariabler, der er defineret for et emne, til emnet på aktiveringstidspunktet, så sprogmodellen kan levere strukturerede data til det deterministiske flow.

  • Du returnerer outputvariabler, der er defineret for et emne, til sprogmodellen i slutningen af emneudførelsen som strukturerede nøgleværdipar. Sprogmodellen indeholder disse output i samtalekonteksten, og du kan referere til dem i efterfølgende sving.

  • Output til værktøjskald følger det samme mønster: Du sender output til sprogmodellen i slutningen af værktøjsudførelsen, og de er tilgængelige til fremtidig brug i samtalekontekstvinduet.

  • Sprogmodellen udfyldes med samtalekontekst, herunder nøgleværdipar for værktøjskald. Du returnerer dog kun eksplicit definerede outputvariabler som strukturerede data. Du kan indsamle en værdi i et emne, f.eks. et bekræftet kontonummer. Definer denne værdi som et output. Hvis du ikke gør det, kan sprogmodellen ikke få adgang til den. Agenten beder muligvis den person, der ringer op, om de samme oplysninger igen senere.

Få mere at vide under Administrer emneinput og -output.

Understøttelse af flere sprog

Tilføj alle de sekundære sprog, du vil bruge. Lokaliseringsstrenge er ikke påkrævet for nogen flow i realtid. Men for deterministiske emnemeddelelser skal du angive de oversatte meddelelser. Få mere at vide i Konfigurer og opret flersprogede agenter.

Modellen i realtid kan forstå og reagere på mange sprog. Microsoft validerer dog ikke formelt alle sprog for generel tilgængelighed.

Fra og med april 2026 valideres følgende sprog formelt:

  • Engelsk (USA) (en-US)
  • Spansk (USA) (es-US)
  • Arabisk
  • Portugisisk (Brasilien) (pt-BR)
  • Italiensk (Italien) (it-IT)
  • Tysk (Tyskland) (de-DE)
  • Nederlandsk (Nederlandene) (nl-NL)
  • Fransk (Canada) (fr-CA)

Microsoft fortsætter med at validere andre sprog og tilføjer dem, når certificeringen er fuldført. Du kan tilføje et hvilket som helst sprog, der understøttes af Copilot Studio. Sprog, der ikke er fuldt certificeret i forhold til kvalitet på GA-niveau, skal dog testes grundigt, før udrulningen af produktionen.

Vigtigt!

Teknisk sprogfunktion er ikke lig med et understøttet eller certificeret sprog. Hvis du har til hensigt at udrulle agenter på andre sprog end engelsk, skal du udføre omfattende test med opkald fra den virkelige verden og opkaldsflow, før du går live.

Kontekstvariabler

En stemmeagent i realtid understøtter kontekstvariabler, der gør det muligt for den at fungere mere intelligent ved at medbringe oplysninger om opkaldet, opkaldet og den aktuelle samtale. Systemet leverer automatisk et begrænset sæt opkalds- og samtalekontekst til modellen på kørselstidspunktet. Dette sæt omfatter:

Kontekstvariabel Beskrivelse
Kanal-id Identificerer den kommunikationskanal, der bruges til interaktionen. Denne identifikation hjælper modellen med at forstå, at samtalen foregår via en tale til tale-kanal.
Opkaldstelefonnummer (ANI) Opkaldets oprindelige telefonnummer. Systemet kan bruge disse oplysninger til at understøtte opkaldsidentifikationsscenarier.
Opkaldsnummer (DNIS) Destinationstelefonnummeret, som opkalderen ringede til. Disse oplysninger hjælper med at skelne mellem, hvilket forretningsnummer eller hvilket indgangspunkt der blev nået.
Samtale-id Et entydigt id for den aktive opkaldssession. Brug denne værdi til at korrelere og bevare kontinuiteten i en enkelt samtale.
SIP-overskrifter Et sæt understøttede SIP-headernøgleværdipar, der er knyttet til opkaldet. Sættet indeholder kun ikke-følsomme og understøttede overskrifter.
Dags dato (UTC) Den aktuelle dato i UTC (Coordinated Universal Time), der leveres på kørselstidspunktet for at tillade datoorienterede svar.
Aktuelt klokkeslæt (UTC) Det aktuelle klokkeslæt i UTC (Coordinated Universal Time), der leveres på kørselstidspunktet for at tillade tidsorienterede svar.

For alle andre kontekstvariabler skal du følge de trin, der er beskrevet i Konfigurer kontekstvariabler for agenter.

Agentstemme

Vælg den stemme, som din agent bruger, ved at vælge din agent, og gå til Indstillinger>Stemme>vælg stemme. Stemmeagenter i realtid understøtter følgende stemmer:

  • Legering
  • Ash
  • Balladen
  • Koral
  • Ekko
  • Salvie
  • Glitre
  • Vers
  • Marin
  • Cedertræ

Bemærkning

  • Agentens stemme er til din stemmeagent i realtid og er ikke den, der er konfigureret i Copilot Service Administration.
  • Hvis du vil matche dine Dynamics-systembeskeder med din stemmeagent i realtid, skal du kun bruge følgende understøttede stemmer: Legering, Ekko, Shimmer eller Ash.

Talefølsomhed

VAD (Speech Sensitivity Voice Activity Detection) bestemmer, hvornår agenten skal svare, når opkalderen er færdig med at tale.

Om VAD-typer

Stemmeagenter i realtid understøtter to VAD-tilgange:

Skærmbillede af dialogboksen Talefølsomhed.

Serverbaseret VAD – baseret på lyd (tavshed)

  • Registrerer slutningen af tale baseret på lydsignaler (stilhedens varighed, lydstyrke)

  • Reagerer hurtigt, når der registreres tavshed

  • Deterministisk, forudsigelig adfærd

  • Bedst til strukturerede interaktioner, korte svar, støjende miljøer

Semantisk VAD – baseret på sætningskontekst

  • Bestemmer fuldførelsen af turn baseret på betydningen af det, der blev sagt

  • Evaluerer, om kalderen har fuldført sin tanke

  • Tilpasser sig naturlige pauser, fyldord, efterstillet tale

  • Bedst til: Samtaleinteraktioner, komplekse spørgsmål, åbne diskussioner

Vælg den rigtige VAD

Brug serverbaseret VAD, når alle følgende betingelser er opfyldt:

  • Interaktioner er strukturerede (menunavigation i IVR-stil).

  • Svarene er korte og forudsigelige.

  • Baggrundsstøj er et problem (semantisk VAD kan vente for længe).

  • Du vil have hurtig og præcis skift af tur.

Brug semantisk VAD, når alle følgende betingelser er opfyldt:

  • Samtaler er åbne.

  • Opkaldere kan tøve eller bruge fyldstof ord ("um", "lad mig tænke ...").

  • Spørgsmål er komplekse (opkaldere forklarer situationer).

  • Naturligt samtaleflow prioriteres.

Konfigurer serverbaseret VAD

Gå til Indstillinger>Tale>Telefonopsætning>Taleinput>Følsomhed>baseret på lyd (stilhed)

Skærmbillede af dialogboksen Talefølsomhed, når den er angivet til Baseret på lyd (stilhed).

Parameter Beskrivelse Standard Anbefalet område
Grænseværdi Følsomhed over for stemme i forhold til støj (0-1 skala) 0.6 0.5-0.7
Præfiksmargen (ms) Lyd, der optages, før talen starter 300 ms 200-500 ms
Tavshedsvarighed (ms) Der kræves tavshed for at afslutte svinget 750 ms 750-1000 ms

Grænseværdi

  • Lavere (0,3-0,4): Mere følsom; opfanger stille tale, kan udløse baggrundsstøj.

  • Højere (0,7-0,9): Mindre følsom; kræver højere tale, reducerer falske udløsere.

  • Anbefalet: Start med 0,5; øg hvis baggrundsstøj forårsager falske udløsninger.

Præfiksudfyldning

  • Registrerer lyd før taleregistrering (forhindrer, at første ord afbrydes).

  • Lavere (200 ms): Hurtigere svar; kan gå glip af den første staves.

  • Højere (500 ms): Sikrere hentning; en lille forsinkelse.

  • Anbefalet: 300 ms (en god balance).

Tavshedsvarighed

  • Hvor lang tid opkaldet skal være uovervåget, før agenten svarer.

  • Lavere (500 ms): Hurtig skift af tur, afbryder muligvis, hvis den, der ringer op, holder pause midt i tanken.

  • Højere (1000 ms): Mere patient; føler sig måske langsom.

  • Anbefalet: Start med 750 ms.

Konfigurer semantisk VAD

Gå til>Stemmekontrol>Taleinput>Baseret på sætningskontekst.

Skærmbillede af dialogboksen Talefølsomhed, når den er angivet til Baseret på sætningskontekst.

Parameter: Iver (hvor hurtigt agenten reagerer efter semantisk fuldførelse)

Indstilling Adfærd Bedst til
Lav Venter længere, meget tålmodig Opkaldere, der tænker højt, hyppige pauser
Mellem Balanceret (standardindstilling) Generelle samtaler
Høj Reagerer hurtigt Hurtige interaktioner, enkle spørgsmål

DTMF-konfiguration

Dual-Tone DTMF (Multi-Frequency) gør det muligt for opkaldere at angive oplysninger ved hjælp af deres telefontastatur.

Du kan slå DTMF til for din agent på både emneniveau og globalt niveau. Hvis du vil angive den på globalt niveau, skal du vælge din agent og gå til Indstillinger>>>DTMF.

Hvis du vil angive den pr. emnenode, kan du få mere at vide under Slå DTMF-understøttelse til for din stemmeaktiverede agent.

Hvis du vil understøtte pålidelig fuldførelse af input, kan du konfigurere funktionsmåden for DTMF-timing og afslutning. Denne konfiguration omfatter en intercifret timeout, som definerer, hvor længe systemet venter mellem tastetryk, og et valgfrit afslutningstegn (f.eks # . eller *), der eksplicit signalerer slutningen af inputtet. Når du bruger et afslutningstegn, behandler systemet input med det samme uden at vente på timeout.

Registrering af stilhed

Registrering af lydlyd gør det muligt for stemmeagenter i realtid at genkende, når en opkalder ikke angiver noget input i en bestemt periode. Konfigurer lyddæmperregistrering som en global stemmeindstilling for agenten ved at gå til Indstillinger>Funktionsmåde> forstemmesamtale>Lyddæmper.

Tavshedstimeren starter, når agenten er færdig med at tale og registrerer ingen tale eller DTMF-input fra kalderen. Hvis timeout for tavshed er nået, følger agenten det konfigurerede emne registrering af stilhed.

Vigtigt!

  • Registrering af tavshed er ikke aktiveret som standard. Hvis brugeren ikke taler, venter agenten på ubestemt tid uden at spørge. Aktivér eksplicit registrering af tavshed, og konfigurer en meddelelse, der skal sendes igen, for at håndtere uovervåget opkald.

  • Standardtimeout for registrering af stilhed er 7.000 ms (7 sekunder). Valider denne værdi i forhold til dit specifikke use case- og kaldermiljø, før du udruller til produktion. Syv sekunder kan føles for længe for nogle opkaldere eller for korte for andre, afhængigt af karakteren af interaktionen, f.eks. komplekse spørgsmål eller støjende miljøer. Test med opkaldsdata fra den virkelige verden for at bestemme den relevante grænse for dit scenarie.

  • Før du aktiverer registrering af tavshed, skal du sikre dig, at den funktionsmåde, du konfigurerer i emnet registrering af tavshed (f.eks. Eskaler, Læg på, Reprompt), er bevidst og passende for din use case. Forkert konfigureret tilbagefaldsadfærd, såsom utilsigtet at sætte tilbagefaldet til eskalering, når hensigten er at lægge på, eller omvendt, kan resultere i uventede opkaldsresultater.

Forsinkelsesmeddelelse

Føj ventetidsmeddelelse eller musik til din agent, når handlinger i baggrunden tager længere tid end forventet. Hvis du vil konfigurere ventetidsmeddelelser, skal du gå til Indstillinger>>Talesamtalefunktionsventetidsbeskeder>.

Skærmbillede af dialogboksen Ventetidsmeddelelser.

Evaluering af stemmeagenter i realtid (prøveversion)

Taleagenter i realtid understøtter afsendelse af tekst under evaluering, men lydbehandling understøttes ikke.