Configuración de agentes de voz en tiempo real

[Este artículo es documentación preliminar y está sujeto a cambios.]

Configure un agente de voz en tiempo real activando la voz en tiempo real, estableciendo las opciones principales y, a continuación, configurando características como temas, compatibilidad multilingüe, DTMF y detección de silencio.

Configuración y habilitación de voz en tiempo real

  1. Cree un nuevo agente y configure sus detalles básicos, como un nombre descriptivo y el propósito del agente en la descripción.

  2. Vaya a la configuración de voz del agente y active Habilitar voz y, después, en Tipo de voz, seleccione Voz en tiempo real. Obtenga más información en Elección de cómo controlar la voz.

    Importante

    Se trata de una selección única. Después de seleccionar Voz en tiempo real, no puede volver a Voz básica. Para usar voz básica, cree un nuevo agente.

    Captura de pantalla de la configuración de un agente, resaltando la configuración de voz en tiempo real.

  3. Vaya a la configuración de seguridad del agente y seleccione Sin autenticación.

Conocimientos y herramientas

Puede configurar el agente para que use conocimientos y herramientas. Obtenga más información en Resumen de orígenes de conocimiento, Incorporación de herramientas a agentes personalizados y Herramientas, conocimientos, MCP y API.

Agentes anidados (versión preliminar)

Los agentes de voz en tiempo real solo admiten agentes secundarios.

Importante

Asegúrese de que las descripciones del agente secundario no se superpongan con las descripciones de los temas. Defina explícitamente el orden de invocación en las instrucciones del agente.

Temas

Los agentes de voz en tiempo real admiten todos los temas configurados en Copilot Studio. Use temas para definir comportamientos deterministas, como saludos, reglas de negocio y escalación, mientras que el modelo de voz en tiempo real administra las respuestas conversacionales en tiempo de ejecución. Obtenga más información en Elegir cómo controlar la conversación.

Procedimientos recomendados al usar temas con agentes de voz en tiempo real

  • Use temas solo cuando se requiera un comportamiento determinista.

  • Use texto estático en mensajes de saludo para obtener la primera respuesta más rápida. Los mensajes dinámicos con variables y expresiones aumentan la latencia inicial.

  • El inicio de conversación está habilitado de forma predeterminada. Si desea que el modelo de voz en tiempo real controle el saludo, deshabilite el tema Inicio de conversación; De lo contrario, el saludo configurado en el tema Inicio de conversación se reproduce en lugar del saludo del modelo de voz.

  • Deje que el modelo de voz en tiempo real controle la conversación general y las preguntas de seguimiento.

  • El tema On Error debe incluir una acción explícita, como transferencia o finalizar la llamada. El control de errores basado únicamente en mensajes no es suficiente. Sin un paso siguiente determinista, los clientes pueden experimentar silencio o llamadas bloqueadas, lo que conduce a confusiones y experiencias de voz deficientes.

  • Use descripciones explícitas de temas y herramientas para declarar la propiedad de la recopilación de datos. Obtenga más información en Escritura de descripciones de herramientas y temas eficaces.

Soporte de nodos de tema

En la lista siguiente se describe la compatibilidad de temas en agentes de voz en tiempo real:

Nodo de condiciones

Feature Apoyo
Bifurcación if/Else Soportado
Expresiones de Power Fx Soportado
Reprocesamiento de relleno de ranuras Soportado

Nodo de mensaje

Característica Apoyo
Mensaje básico Soportado
Variaciones de mensajes Soportado
Inserción de variables Soportado
SSML Soportado
Tarjetas multimedia enriquecidas y adaptables No aplicable
Respuestas rápidas No aplicable

Nodo de Pregunta

Feature Apoyo
Texto de la indicación Soportado
Suspensión automática No soportado
Relleno de ranuras Soportado
Comportamiento de omisión/Relleno voraz de ranuras Soportado
Volver a solicitar/Reintentar Soportado
Control de respuestas no válido Soportado
Interrupción del tema Soportado
Interrumpir Soportado
Personalizar mensaje de nueva solicitud Soportado
Entrada DTMF Soportado
Detección de silencio Soportado

Nodo HTTP

Característica Apoyo
Métodos HTTP: GET, POST, PUT, PATCH, DELETE Soportado
Puntos de conexión de la URL Soportado
Encabezados y cargas Soportado
Análisis y esquema de respuestas Soportado
Mapeo de variables Soportado
Gestión de errores Soportado

Nodo de la herramienta

Feature Apoyo
Flujo de Power Automate Soportado
Invocación de herramientas Soportado
Asignación de entrada/salida Soportado
Mensaje nuevo Soportado

Nodo para establecer el valor de una variable

Característica Apoyo
Asignación literal Soportado
Asignación de expresiones Soportado
De variable a variable Soportado

Nodo de administración de temas

Característica Apoyo
Fin del tema actual Soportado
Finalizar todos los temas Soportado
Finalizar conversación Soportado
Ir al paso Soportado
Entrada del usuario para reconocer la intención Soportado
Ir a otro tema Soportado

Transferir nodo de conversación

Característica Apoyo
Transferir a agente Soportado
Transferencia de número de teléfono externo Soportado

Advanced

Feature Apoyo
Creación de respuestas generativas Soportado

Soporte de activadores del sistema

Desencadenador Apoyo Detalles
Al iniciar la conversación Soportado Se desencadena cuando comienza una nueva conversación
Hablar con representante Soportado Transferencias al agente humano
Tema desconocido/Sobre intención desconocida No soportado Fallback cuando no coincida ningún asunto
OnSelectIntent (varios temas coincidentes) No soportado Desambiguación entre temas similares
Restablecer conversación (OnSystemRedirect) Soportado Borra las variables y reinicia el flujo.
Al iniciar sesión No soportado
Pulsación de tecla DTMF desconocida Soportado Entrada del teclado sin asignar
El agente elige o el usuario dice una frase. Soportado El agente selecciona el tema en función de la intención.
Se recibe un mensaje No soportado Aumenta la latencia
Se produce un evento de cliente personalizado No soportado Solo en el inicio de sesión
Actualización de la conversación No soportado Miembros agregados o eliminados, cambios de sesión
Se invoca No soportado Requiere una interfaz de usuario sincrónica
Se redirige Soportado
El usuario está inactivo durante un tiempo o detección de silencio Soportado Tiempo de inactividad del usuario
Se completa un plan No soportado
Respuesta de IA generada No soportado
Al producirse un error Soportado Controla los errores de orquestación.

Pasar variables entre temas y el modelo de lenguaje

Cuando se usan temas en un flujo de conversación híbrido, comprender cómo pasar variables entre temas y el modelo de lenguaje en tiempo real, es fundamental para crear interacciones fiables y con estado.

Esta funcionalidad funciona mediante el siguiente proceso:

  • Se pasan variables de entrada definidas en un tema en el momento de la invocación, por lo que el modelo de lenguaje, puede proporcionar datos estructurados al flujo determinista.

  • Se devuelven al modelo de lenguaje las variables de salida definidas en un tema, al final de la ejecución del tema, como pares clave-valor estructurados. El modelo lingüístico incluye estos resultados en el contexto conversacional, y usted puede referirse a ellos en turnos posteriores.

  • Las salidas de llamada de herramienta siguen el mismo patrón: se envían salidas al modelo de lenguaje al final de la ejecución de la herramienta y están disponibles para su uso futuro en la ventana de contexto de conversación.

  • El modelo de lenguaje se rellena con el contexto conversacional, incluidos los pares clave-valor de la llamada a la herramienta. Sin embargo, solo se devuelven variables de salida definidas explícitamente como datos estructurados. Puede recopilar un valor dentro de un tema, como un número de cuenta comprobado. Defina ese valor como salida. Si no lo hace, el modelo de lenguaje no puede acceder a él. El agente podría pedir al autor de la llamada la misma información más adelante.

Obtenga más información en Administración de entradas y salidas de temas.

Compatibilidad con varios idiomas

Agregue todos los idiomas secundarios que desee. Las cadenas de localización no son necesarias para los flujos en tiempo real. Sin embargo, para los mensajes de tema deterministas, debe proporcionar los mensajes traducidos. Obtenga más información en Configuración y creación de agentes multilingües.

El modelo en tiempo real puede comprender y responder en muchos lenguajes. Sin embargo, Microsoft no valida formalmente todos los idiomas para obtener disponibilidad general.

A partir de abril de 2026, se validan formalmente los siguientes idiomas:

  • Inglés (Estados Unidos) (en-US)
  • Español (Estados Unidos) (es-US)
  • Árabe
  • Portugués (Brasil) (pt-BR)
  • Italiano (Italia) (it-IT)
  • Alemán (Alemania) (de-DE)
  • Holandés (Países Bajos) (nl-NL)
  • Francés (Canadá) (fr-CA)

Microsoft continúa validando otros idiomas y los agrega después de la finalización de la certificación. Puede agregar cualquier idioma compatible con Copilot Studio. Sin embargo, los idiomas que no están totalmente certificados para la calidad de disponibilidad general, GA, deben probarse exhaustivamente antes de la implementación en producción.

Importante

La funcionalidad de lenguaje técnico no es igual a un idioma compatible o certificado. Si tiene previsto implementar agentes en idiomas distintos del inglés, debe realizar pruebas exhaustivas con autores de llamadas reales y flujos de llamadas antes de empezar a funcionar.

Variables de contexto

Un agente de voz en tiempo real admite variables de contexto que le permiten comportarse de forma más inteligente llevando información sobre la llamada, el autor de la llamada y la conversación actual. El sistema proporciona automáticamente un conjunto limitado de contexto de llamada y conversación al modelo en tiempo de ejecución. Este conjunto incluye:

Variable de contexto Descripción
Id. de canal Identifica el canal de comunicación usado para la interacción. Esta identificación ayuda al modelo a comprender que la conversación se está produciendo a través de un canal de voz a voz.
Número de teléfono del autor de la llamada (ANI) Número de teléfono de origen del autor de la llamada. El sistema puede usar esta información para admitir escenarios de identificación del autor de la llamada.
Número del llamado (DNIS) Número de teléfono de destino que marcó el autor de la llamada. Esta información ayuda a distinguir el número de identificación empresarial o el punto de entrada al que se llegó.
Id. de la conversación Identificador único de la sesión de llamada activa. Use este valor para correlacionar y mantener la continuidad dentro de una sola conversación.
Encabezados SIP Conjunto de pares clave-valor de encabezados SIP admitidos asociados a la llamada. El conjunto solo incluye encabezados, no confidenciales y compatibles.
Fecha actual (UTC) La fecha actual en hora universal coordinada (UTC), proporcionada en tiempo de ejecución para permitir respuestas conscientes de las fechas.
Hora actual (UTC) La hora actual en hora universal coordinada (UTC), proporcionada en tiempo de ejecución para permitir respuestas compatibles con el tiempo.

Para todas las demás variables de contexto, siga los pasos descritos en Configuración de variables de contexto para agentes.

Voz del agente

Seleccione la voz que usa el agente seleccionando el agente y vaya a Configuración>Voz>Seleccionar voz. Los agentes de voz en tiempo real admiten las siguientes voces:

  • Aleación
  • Ceniza
  • Balada
  • Coral
  • Eco
  • Sage
  • Brillo
  • Verse
  • Marin
  • Cedar

Nota:

  • La voz del agente es para el agente de voz en tiempo real y no es la configurada en el Centro de administración del servicio Copilot.
  • Para alinear las voces de los mensajes del sistema Dynamics con las de su agente de voz en tiempo real, utilice solo las siguientes voces admitidas: Alloy, Echo, Shimmer o Ash.

Sensibilidad de voz

La detección de actividad de voz por sensibilidad de voz (VAD) determina cuándo el agente debe responder después de que el interlocutor termine de hablar.

Comprensión de los tipos de VAD

Los agentes de voz en tiempo real admiten dos enfoques VAD:

Captura de pantalla del cuadro de diálogo de sensibilidad del habla.

VAD basado en servidor: basado en sonido (silencio)

  • Detecta el final de la voz en función de las señales de audio (duración del silencio, volumen)

  • Responde rápidamente una vez detectado el silencio

  • Comportamiento determinista y predecible

  • Ideal para interacciones estructuradas, respuestas cortas, entornos ruidosos

VAD semántico: basado en el contexto de oración

  • Determina la finalización de turnos en función del significado de lo que se dijo.

  • Evalúa si el autor de la llamada completó su opinión

  • Se adapta a pausas naturales, palabras de relleno, locuciones inconclusas

  • Ideal para: Interacciones conversacionales, preguntas complejas, discusiones abiertas

Seleccione el VAD correcto.

Use VAD basado en servidor cuando se cumplen todas las condiciones siguientes:

  • Las interacciones están estructuradas (navegación de menú de estilo IVR).

  • Las respuestas son cortas y predecibles.

  • El ruido de fondo es un problema (el VAD semántico puede esperar demasiado tiempo).

  • Quiere una interacción rápida y clara.

Use VAD semántico cuando se cumplen todas las condiciones siguientes:

  • Las conversaciones son abiertas y sin un final definido.

  • Los autores de llamadas pueden dudar o usar palabras de relleno ("um", "déjame pensar...").

  • Las preguntas son complejas (los autores de la llamada explican situaciones).

  • El flujo de conversación natural tiene prioridad.

Configurar VAD basado en servidor

Vaya a Configuración>Voz>Configuración del teléfono>Entrada de voz>Sensibilidad>Basado en el sonido (silencio).

Captura de pantalla del cuadro de diálogo de sensibilidad del habla cuando se establece en Basado en sonido (silencio).

Parámetro Descripción Predeterminado Intervalo recomendado
Umbral Sensibilidad a la voz frente al ruido (escala de 0 a 1) 0.6 0.5-0.7
Relleno de prefijo (ms) Audio capturado antes de que se inicie la voz 300 ms 200-500 ms
Duración del silencio (ms) Silencio necesario para finalizar el turno 750 milisegundos 750-1000 ms

Umbral

  • Menor (0.3-0.4): Más sensible; capta voces bajas, podría activarse con el ruido de fondo.

  • Mayor (0,7-0,9): menos sensible; requiere voz más alta, reduce los desencadenadores falsos.

  • Recomendado: Comience con 0,5; aumenta si el ruido de fondo provoca desencadenadores falsos.

Relleno de prefijo

  • Captura el audio antes de la detección de voz (evita cortar la primera palabra).

  • Inferior (200 ms): respuesta más rápida; es posible que se pierda la primera syllable.

  • Mayor (500 ms): captura más segura; ligero retraso.

  • Recomendado: 300 ms (buen equilibrio).

Duración del silencio

  • Cuánto tiempo debe ser silencioso el autor de la llamada antes de que responda el agente.

  • Bajo (500 ms): interacción rápida; puede interrumpir si el interlocutor pausa y duda.

  • Más alto (1000 ms): más paciente; puede parecer lento.

  • Recomendado: comience con 750 ms.

Configurar VAD semántico

Vaya a Configuración>Voz>Configuración del teléfono>Entrada de voz>Sensibilidad>Basado en el contexto de la oración.

Captura de pantalla del cuadro de diálogo de sensibilidad del habla cuando se establece en Basado en el contexto de la oración.

Parámetro: Entusiasmo (la rapidez con la que responde el agente después de la finalización semántica)

Configuración Comportamiento Más adecuado para
Bajo Espera más tiempo, muy paciente Personas que llaman que piensan en voz alta y hacen pausas frecuentes
Medio Equilibrado (valor predeterminado) Conversaciones generales
Alto Responde rápidamente Interacciones rápidas, preguntas sencillas

Configuración de DTMF

Multi-Frecuencia de Doble Tono (DTMF) permite a los llamantes ingresar información usando el teclado de su teléfono.

Puede activar DTMF para tu agente tanto a nivel de tema como a nivel global. Para establecerlo en el nivel global, seleccione su agente y vaya a Configuración>Voz>Comportamiento de conversación>DTMF.

Para establecerlo por cada nodo de tema, obtenga más información en Habilitar compatibilidad con DTMF para el agente con capacidades de voz.

Para admitir la finalización fiable de la entrada, puede configurar la temporización y el comportamiento de finalización de DTMF. Esta configuración incluye un tiempo de espera entre dígitos, que define cuánto tiempo espera el sistema entre pulsaciones de teclas y un carácter de terminación opcional (como # o *) que indica explícitamente el final de la entrada. Cuando se usa un carácter de terminación, el sistema procesa la entrada inmediatamente sin esperar un tiempo de espera.

Detección de silencio

La detección de silencio permite a los agentes de voz en tiempo real reconocer cuándo un autor de llamada no proporciona ninguna entrada durante un período especificado. Configure la detección de silencio como una configuración global de voz para el agente. Para ello, vaya a Configuración>Voz>Comportamiento de conversación>Detección de silencio.

El temporizador de silencio se inicia cuando el agente termina de hablar y no detecta ninguna entrada de voz o DTMF del autor de la llamada. Si se alcanza el tiempo de espera de silencio, el agente sigue el tema de detección de silencio configurado.

Importante

  • La detección de silencio no está activada de forma predeterminada. Si el usuario no habla, el agente espera indefinidamente sin preguntar. Active explícitamente la detección de silencio y configure un mensaje de reinstrucción para manejar las llamadas silenciosas.

  • El tiempo de espera de detección de silencio predeterminado es de 7000 ms (7 segundos). Valide este valor de acuerdo a su caso de uso específico y entorno de llamada antes de implementarlo en producción. Siete segundos pueden parecer demasiado largos para algunos autores de llamadas o demasiado cortos para otros en función de la naturaleza de la interacción, por ejemplo, preguntas complejas o entornos ruidosos. Pruebe con datos de llamadas reales para determinar el umbral adecuado para su escenario.

  • Antes de habilitar la detección de silencio, asegúrese de que el comportamiento que configure en el tema de detección de silencio (por ejemplo, Escalar, Colgar, Resolicitar) sea intencionado y adecuado para su caso de uso. El comportamiento de respaldo mal configurado, como establecer involuntariamente el comportamiento de respaldo en Escalar cuando la intención es colgar, o viceversa, puede dar lugar a resultados inesperados de llamadas.

Mensajes de latencia

Agregue un mensaje de latencia o música al agente cuando las operaciones en segundo plano se demoren más de lo esperado. Para configurar la mensajería de latencia, vaya a Configuración>Voz>Comportamiento de conversación>Mensajería de latencia.

Captura de pantalla del cuadro de diálogo de mensajería de latencia.

Evaluación del agente de voz en tiempo real (versión preliminar)

Sin embargo, los agentes de voz en tiempo real admiten el envío de texto durante la evaluación; sin embargo, no se admite el procesamiento de audio.