Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
[Este artículo es documentación preliminar y está sujeto a cambios.]
Configure un agente de voz en tiempo real activando la voz en tiempo real, estableciendo las opciones principales y, a continuación, configurando características como temas, compatibilidad multilingüe, DTMF y detección de silencio.
Configuración y habilitación de voz en tiempo real
Cree un nuevo agente y configure sus detalles básicos, como un nombre descriptivo y el propósito del agente en la descripción.
Vaya a la configuración de voz del agente y active Habilitar voz y, después, en Tipo de voz, seleccione Voz en tiempo real. Obtenga más información en Elección de cómo controlar la voz.
Importante
Se trata de una selección única. Después de seleccionar Voz en tiempo real, no puede volver a Voz básica. Para usar voz básica, cree un nuevo agente.
Vaya a la configuración de seguridad del agente y seleccione Sin autenticación.
Conocimientos y herramientas
Puede configurar el agente para que use conocimientos y herramientas. Obtenga más información en Resumen de orígenes de conocimiento, Incorporación de herramientas a agentes personalizados y Herramientas, conocimientos, MCP y API.
Agentes anidados (versión preliminar)
Los agentes de voz en tiempo real solo admiten agentes secundarios.
Importante
Asegúrese de que las descripciones del agente secundario no se superpongan con las descripciones de los temas. Defina explícitamente el orden de invocación en las instrucciones del agente.
Temas
Los agentes de voz en tiempo real admiten todos los temas configurados en Copilot Studio. Use temas para definir comportamientos deterministas, como saludos, reglas de negocio y escalación, mientras que el modelo de voz en tiempo real administra las respuestas conversacionales en tiempo de ejecución. Obtenga más información en Elegir cómo controlar la conversación.
Procedimientos recomendados al usar temas con agentes de voz en tiempo real
Use temas solo cuando se requiera un comportamiento determinista.
Use texto estático en mensajes de saludo para obtener la primera respuesta más rápida. Los mensajes dinámicos con variables y expresiones aumentan la latencia inicial.
El inicio de conversación está habilitado de forma predeterminada. Si desea que el modelo de voz en tiempo real controle el saludo, deshabilite el tema Inicio de conversación; De lo contrario, el saludo configurado en el tema Inicio de conversación se reproduce en lugar del saludo del modelo de voz.
Deje que el modelo de voz en tiempo real controle la conversación general y las preguntas de seguimiento.
El tema On Error debe incluir una acción explícita, como transferencia o finalizar la llamada. El control de errores basado únicamente en mensajes no es suficiente. Sin un paso siguiente determinista, los clientes pueden experimentar silencio o llamadas bloqueadas, lo que conduce a confusiones y experiencias de voz deficientes.
Use descripciones explícitas de temas y herramientas para declarar la propiedad de la recopilación de datos. Obtenga más información en Escritura de descripciones de herramientas y temas eficaces.
Soporte de nodos de tema
En la lista siguiente se describe la compatibilidad de temas en agentes de voz en tiempo real:
Nodo de condiciones
| Feature | Apoyo |
|---|---|
| Bifurcación if/Else | Soportado |
| Expresiones de Power Fx | Soportado |
| Reprocesamiento de relleno de ranuras | Soportado |
Nodo de mensaje
| Característica | Apoyo |
|---|---|
| Mensaje básico | Soportado |
| Variaciones de mensajes | Soportado |
| Inserción de variables | Soportado |
| SSML | Soportado |
| Tarjetas multimedia enriquecidas y adaptables | No aplicable |
| Respuestas rápidas | No aplicable |
Nodo de Pregunta
| Feature | Apoyo |
|---|---|
| Texto de la indicación | Soportado |
| Suspensión automática | No soportado |
| Relleno de ranuras | Soportado |
| Comportamiento de omisión/Relleno voraz de ranuras | Soportado |
| Volver a solicitar/Reintentar | Soportado |
| Control de respuestas no válido | Soportado |
| Interrupción del tema | Soportado |
| Interrumpir | Soportado |
| Personalizar mensaje de nueva solicitud | Soportado |
| Entrada DTMF | Soportado |
| Detección de silencio | Soportado |
Nodo HTTP
| Característica | Apoyo |
|---|---|
| Métodos HTTP: GET, POST, PUT, PATCH, DELETE | Soportado |
| Puntos de conexión de la URL | Soportado |
| Encabezados y cargas | Soportado |
| Análisis y esquema de respuestas | Soportado |
| Mapeo de variables | Soportado |
| Gestión de errores | Soportado |
Nodo de la herramienta
| Feature | Apoyo |
|---|---|
| Flujo de Power Automate | Soportado |
| Invocación de herramientas | Soportado |
| Asignación de entrada/salida | Soportado |
| Mensaje nuevo | Soportado |
Nodo para establecer el valor de una variable
| Característica | Apoyo |
|---|---|
| Asignación literal | Soportado |
| Asignación de expresiones | Soportado |
| De variable a variable | Soportado |
Nodo de administración de temas
| Característica | Apoyo |
|---|---|
| Fin del tema actual | Soportado |
| Finalizar todos los temas | Soportado |
| Finalizar conversación | Soportado |
| Ir al paso | Soportado |
| Entrada del usuario para reconocer la intención | Soportado |
| Ir a otro tema | Soportado |
Transferir nodo de conversación
| Característica | Apoyo |
|---|---|
| Transferir a agente | Soportado |
| Transferencia de número de teléfono externo | Soportado |
Advanced
| Feature | Apoyo |
|---|---|
| Creación de respuestas generativas | Soportado |
Soporte de activadores del sistema
| Desencadenador | Apoyo | Detalles |
|---|---|---|
| Al iniciar la conversación | Soportado | Se desencadena cuando comienza una nueva conversación |
| Hablar con representante | Soportado | Transferencias al agente humano |
| Tema desconocido/Sobre intención desconocida | No soportado | Fallback cuando no coincida ningún asunto |
| OnSelectIntent (varios temas coincidentes) | No soportado | Desambiguación entre temas similares |
| Restablecer conversación (OnSystemRedirect) | Soportado | Borra las variables y reinicia el flujo. |
| Al iniciar sesión | No soportado | |
| Pulsación de tecla DTMF desconocida | Soportado | Entrada del teclado sin asignar |
| El agente elige o el usuario dice una frase. | Soportado | El agente selecciona el tema en función de la intención. |
| Se recibe un mensaje | No soportado | Aumenta la latencia |
| Se produce un evento de cliente personalizado | No soportado | Solo en el inicio de sesión |
| Actualización de la conversación | No soportado | Miembros agregados o eliminados, cambios de sesión |
| Se invoca | No soportado | Requiere una interfaz de usuario sincrónica |
| Se redirige | Soportado | |
| El usuario está inactivo durante un tiempo o detección de silencio | Soportado | Tiempo de inactividad del usuario |
| Se completa un plan | No soportado | |
| Respuesta de IA generada | No soportado | |
| Al producirse un error | Soportado | Controla los errores de orquestación. |
Pasar variables entre temas y el modelo de lenguaje
Cuando se usan temas en un flujo de conversación híbrido, comprender cómo pasar variables entre temas y el modelo de lenguaje en tiempo real, es fundamental para crear interacciones fiables y con estado.
Esta funcionalidad funciona mediante el siguiente proceso:
Se pasan variables de entrada definidas en un tema en el momento de la invocación, por lo que el modelo de lenguaje, puede proporcionar datos estructurados al flujo determinista.
Se devuelven al modelo de lenguaje las variables de salida definidas en un tema, al final de la ejecución del tema, como pares clave-valor estructurados. El modelo lingüístico incluye estos resultados en el contexto conversacional, y usted puede referirse a ellos en turnos posteriores.
Las salidas de llamada de herramienta siguen el mismo patrón: se envían salidas al modelo de lenguaje al final de la ejecución de la herramienta y están disponibles para su uso futuro en la ventana de contexto de conversación.
El modelo de lenguaje se rellena con el contexto conversacional, incluidos los pares clave-valor de la llamada a la herramienta. Sin embargo, solo se devuelven variables de salida definidas explícitamente como datos estructurados. Puede recopilar un valor dentro de un tema, como un número de cuenta comprobado. Defina ese valor como salida. Si no lo hace, el modelo de lenguaje no puede acceder a él. El agente podría pedir al autor de la llamada la misma información más adelante.
Obtenga más información en Administración de entradas y salidas de temas.
Compatibilidad con varios idiomas
Agregue todos los idiomas secundarios que desee. Las cadenas de localización no son necesarias para los flujos en tiempo real. Sin embargo, para los mensajes de tema deterministas, debe proporcionar los mensajes traducidos. Obtenga más información en Configuración y creación de agentes multilingües.
El modelo en tiempo real puede comprender y responder en muchos lenguajes. Sin embargo, Microsoft no valida formalmente todos los idiomas para obtener disponibilidad general.
A partir de abril de 2026, se validan formalmente los siguientes idiomas:
- Inglés (Estados Unidos) (en-US)
- Español (Estados Unidos) (es-US)
- Árabe
- Portugués (Brasil) (pt-BR)
- Italiano (Italia) (it-IT)
- Alemán (Alemania) (de-DE)
- Holandés (Países Bajos) (nl-NL)
- Francés (Canadá) (fr-CA)
Microsoft continúa validando otros idiomas y los agrega después de la finalización de la certificación. Puede agregar cualquier idioma compatible con Copilot Studio. Sin embargo, los idiomas que no están totalmente certificados para la calidad de disponibilidad general, GA, deben probarse exhaustivamente antes de la implementación en producción.
Importante
La funcionalidad de lenguaje técnico no es igual a un idioma compatible o certificado. Si tiene previsto implementar agentes en idiomas distintos del inglés, debe realizar pruebas exhaustivas con autores de llamadas reales y flujos de llamadas antes de empezar a funcionar.
Variables de contexto
Un agente de voz en tiempo real admite variables de contexto que le permiten comportarse de forma más inteligente llevando información sobre la llamada, el autor de la llamada y la conversación actual. El sistema proporciona automáticamente un conjunto limitado de contexto de llamada y conversación al modelo en tiempo de ejecución. Este conjunto incluye:
| Variable de contexto | Descripción |
|---|---|
| Id. de canal | Identifica el canal de comunicación usado para la interacción. Esta identificación ayuda al modelo a comprender que la conversación se está produciendo a través de un canal de voz a voz. |
| Número de teléfono del autor de la llamada (ANI) | Número de teléfono de origen del autor de la llamada. El sistema puede usar esta información para admitir escenarios de identificación del autor de la llamada. |
| Número del llamado (DNIS) | Número de teléfono de destino que marcó el autor de la llamada. Esta información ayuda a distinguir el número de identificación empresarial o el punto de entrada al que se llegó. |
| Id. de la conversación | Identificador único de la sesión de llamada activa. Use este valor para correlacionar y mantener la continuidad dentro de una sola conversación. |
| Encabezados SIP | Conjunto de pares clave-valor de encabezados SIP admitidos asociados a la llamada. El conjunto solo incluye encabezados, no confidenciales y compatibles. |
| Fecha actual (UTC) | La fecha actual en hora universal coordinada (UTC), proporcionada en tiempo de ejecución para permitir respuestas conscientes de las fechas. |
| Hora actual (UTC) | La hora actual en hora universal coordinada (UTC), proporcionada en tiempo de ejecución para permitir respuestas compatibles con el tiempo. |
Para todas las demás variables de contexto, siga los pasos descritos en Configuración de variables de contexto para agentes.
Voz del agente
Seleccione la voz que usa el agente seleccionando el agente y vaya a Configuración>Voz>Seleccionar voz. Los agentes de voz en tiempo real admiten las siguientes voces:
- Aleación
- Ceniza
- Balada
- Coral
- Eco
- Sage
- Brillo
- Verse
- Marin
- Cedar
Nota:
- La voz del agente es para el agente de voz en tiempo real y no es la configurada en el Centro de administración del servicio Copilot.
- Para alinear las voces de los mensajes del sistema Dynamics con las de su agente de voz en tiempo real, utilice solo las siguientes voces admitidas: Alloy, Echo, Shimmer o Ash.
Sensibilidad de voz
La detección de actividad de voz por sensibilidad de voz (VAD) determina cuándo el agente debe responder después de que el interlocutor termine de hablar.
Comprensión de los tipos de VAD
Los agentes de voz en tiempo real admiten dos enfoques VAD:
VAD basado en servidor: basado en sonido (silencio)
Detecta el final de la voz en función de las señales de audio (duración del silencio, volumen)
Responde rápidamente una vez detectado el silencio
Comportamiento determinista y predecible
Ideal para interacciones estructuradas, respuestas cortas, entornos ruidosos
VAD semántico: basado en el contexto de oración
Determina la finalización de turnos en función del significado de lo que se dijo.
Evalúa si el autor de la llamada completó su opinión
Se adapta a pausas naturales, palabras de relleno, locuciones inconclusas
Ideal para: Interacciones conversacionales, preguntas complejas, discusiones abiertas
Seleccione el VAD correcto.
Use VAD basado en servidor cuando se cumplen todas las condiciones siguientes:
Las interacciones están estructuradas (navegación de menú de estilo IVR).
Las respuestas son cortas y predecibles.
El ruido de fondo es un problema (el VAD semántico puede esperar demasiado tiempo).
Quiere una interacción rápida y clara.
Use VAD semántico cuando se cumplen todas las condiciones siguientes:
Las conversaciones son abiertas y sin un final definido.
Los autores de llamadas pueden dudar o usar palabras de relleno ("um", "déjame pensar...").
Las preguntas son complejas (los autores de la llamada explican situaciones).
El flujo de conversación natural tiene prioridad.
Configurar VAD basado en servidor
Vaya a Configuración>Voz>Configuración del teléfono>Entrada de voz>Sensibilidad>Basado en el sonido (silencio).
| Parámetro | Descripción | Predeterminado | Intervalo recomendado |
|---|---|---|---|
| Umbral | Sensibilidad a la voz frente al ruido (escala de 0 a 1) | 0.6 | 0.5-0.7 |
| Relleno de prefijo (ms) | Audio capturado antes de que se inicie la voz | 300 ms | 200-500 ms |
| Duración del silencio (ms) | Silencio necesario para finalizar el turno | 750 milisegundos | 750-1000 ms |
Umbral
Menor (0.3-0.4): Más sensible; capta voces bajas, podría activarse con el ruido de fondo.
Mayor (0,7-0,9): menos sensible; requiere voz más alta, reduce los desencadenadores falsos.
Recomendado: Comience con 0,5; aumenta si el ruido de fondo provoca desencadenadores falsos.
Relleno de prefijo
Captura el audio antes de la detección de voz (evita cortar la primera palabra).
Inferior (200 ms): respuesta más rápida; es posible que se pierda la primera syllable.
Mayor (500 ms): captura más segura; ligero retraso.
Recomendado: 300 ms (buen equilibrio).
Duración del silencio
Cuánto tiempo debe ser silencioso el autor de la llamada antes de que responda el agente.
Bajo (500 ms): interacción rápida; puede interrumpir si el interlocutor pausa y duda.
Más alto (1000 ms): más paciente; puede parecer lento.
Recomendado: comience con 750 ms.
Configurar VAD semántico
Vaya a Configuración>Voz>Configuración del teléfono>Entrada de voz>Sensibilidad>Basado en el contexto de la oración.
Parámetro: Entusiasmo (la rapidez con la que responde el agente después de la finalización semántica)
| Configuración | Comportamiento | Más adecuado para |
|---|---|---|
| Bajo | Espera más tiempo, muy paciente | Personas que llaman que piensan en voz alta y hacen pausas frecuentes |
| Medio | Equilibrado (valor predeterminado) | Conversaciones generales |
| Alto | Responde rápidamente | Interacciones rápidas, preguntas sencillas |
Configuración de DTMF
Multi-Frecuencia de Doble Tono (DTMF) permite a los llamantes ingresar información usando el teclado de su teléfono.
Puede activar DTMF para tu agente tanto a nivel de tema como a nivel global. Para establecerlo en el nivel global, seleccione su agente y vaya a Configuración>Voz>Comportamiento de conversación>DTMF.
Para establecerlo por cada nodo de tema, obtenga más información en Habilitar compatibilidad con DTMF para el agente con capacidades de voz.
Para admitir la finalización fiable de la entrada, puede configurar la temporización y el comportamiento de finalización de DTMF. Esta configuración incluye un tiempo de espera entre dígitos, que define cuánto tiempo espera el sistema entre pulsaciones de teclas y un carácter de terminación opcional (como # o *) que indica explícitamente el final de la entrada. Cuando se usa un carácter de terminación, el sistema procesa la entrada inmediatamente sin esperar un tiempo de espera.
Detección de silencio
La detección de silencio permite a los agentes de voz en tiempo real reconocer cuándo un autor de llamada no proporciona ninguna entrada durante un período especificado. Configure la detección de silencio como una configuración global de voz para el agente. Para ello, vaya a Configuración>Voz>Comportamiento de conversación>Detección de silencio.
El temporizador de silencio se inicia cuando el agente termina de hablar y no detecta ninguna entrada de voz o DTMF del autor de la llamada. Si se alcanza el tiempo de espera de silencio, el agente sigue el tema de detección de silencio configurado.
Importante
La detección de silencio no está activada de forma predeterminada. Si el usuario no habla, el agente espera indefinidamente sin preguntar. Active explícitamente la detección de silencio y configure un mensaje de reinstrucción para manejar las llamadas silenciosas.
El tiempo de espera de detección de silencio predeterminado es de 7000 ms (7 segundos). Valide este valor de acuerdo a su caso de uso específico y entorno de llamada antes de implementarlo en producción. Siete segundos pueden parecer demasiado largos para algunos autores de llamadas o demasiado cortos para otros en función de la naturaleza de la interacción, por ejemplo, preguntas complejas o entornos ruidosos. Pruebe con datos de llamadas reales para determinar el umbral adecuado para su escenario.
Antes de habilitar la detección de silencio, asegúrese de que el comportamiento que configure en el tema de detección de silencio (por ejemplo, Escalar, Colgar, Resolicitar) sea intencionado y adecuado para su caso de uso. El comportamiento de respaldo mal configurado, como establecer involuntariamente el comportamiento de respaldo en Escalar cuando la intención es colgar, o viceversa, puede dar lugar a resultados inesperados de llamadas.
Mensajes de latencia
Agregue un mensaje de latencia o música al agente cuando las operaciones en segundo plano se demoren más de lo esperado. Para configurar la mensajería de latencia, vaya a Configuración>Voz>Comportamiento de conversación>Mensajería de latencia.
Evaluación del agente de voz en tiempo real (versión preliminar)
Sin embargo, los agentes de voz en tiempo real admiten el envío de texto durante la evaluación; sin embargo, no se admite el procesamiento de audio.