Configuración de agentes de voz en tiempo real

[Este artículo es documentación preliminar y está sujeto a cambios.]

Configure un agente de voz en tiempo real activando la voz en tiempo real, estableciendo las opciones principales y, a continuación, configurando características como temas, compatibilidad multilingüe, DTMF y detección de silencio.

Configuración y habilitación de voz en tiempo real

Cree un nuevo agente y configure sus detalles básicos, como un nombre descriptivo y el propósito del agente en la descripción.
Vaya a la configuración de voz del agente y active Habilitar voz y, después, en Tipo de voz, seleccione Voz en tiempo real. Obtenga más información en Elección de cómo controlar la voz.

Importante

Se trata de una selección única. Después de seleccionar Voz en tiempo real, no puede volver a Voz básica. Para usar voz básica, cree un nuevo agente.
Vaya a la configuración de seguridad del agente y seleccione Sin autenticación.

Conocimientos y herramientas

Puede configurar el agente para que use conocimientos y herramientas. Obtenga más información en Resumen de orígenes de conocimiento, Incorporación de herramientas a agentes personalizados y Herramientas, conocimientos, MCP y API.

Agentes anidados (versión preliminar)

Los agentes de voz en tiempo real solo admiten agentes secundarios.

Importante

Asegúrese de que las descripciones del agente secundario no se superpongan con las descripciones de los temas. Defina explícitamente el orden de invocación en las instrucciones del agente.

Temas

Los agentes de voz en tiempo real admiten todos los temas configurados en Copilot Studio. Use temas para definir comportamientos deterministas, como saludos, reglas de negocio y escalación, mientras que el modelo de voz en tiempo real administra las respuestas conversacionales en tiempo de ejecución. Obtenga más información en Elegir cómo controlar la conversación.

Procedimientos recomendados al usar temas con agentes de voz en tiempo real

Use temas solo cuando se requiera un comportamiento determinista.
Use texto estático en mensajes de saludo para obtener la primera respuesta más rápida. Los mensajes dinámicos con variables y expresiones aumentan la latencia inicial.
El inicio de conversación está habilitado de forma predeterminada. Si desea que el modelo de voz en tiempo real controle el saludo, deshabilite el tema Inicio de conversación; De lo contrario, el saludo configurado en el tema Inicio de conversación se reproduce en lugar del saludo del modelo de voz.
Deje que el modelo de voz en tiempo real controle la conversación general y las preguntas de seguimiento.
El tema On Error debe incluir una acción explícita, como transferencia o finalizar la llamada. El control de errores basado únicamente en mensajes no es suficiente. Sin un paso siguiente determinista, los clientes pueden experimentar silencio o llamadas bloqueadas, lo que conduce a confusiones y experiencias de voz deficientes.
Use descripciones explícitas de temas y herramientas para declarar la propiedad de la recopilación de datos. Obtenga más información en Escritura de descripciones de herramientas y temas eficaces.

Soporte de nodos de tema

En la lista siguiente se describe la compatibilidad de temas en agentes de voz en tiempo real:

Nodo de condiciones

Feature	Apoyo
Bifurcación if/Else	Soportado
Expresiones de Power Fx	Soportado
Reprocesamiento de relleno de ranuras	Soportado

Nodo de mensaje

Característica	Apoyo
Mensaje básico	Soportado
Variaciones de mensajes	Soportado
Inserción de variables	Soportado
SSML	Soportado
Tarjetas multimedia enriquecidas y adaptables	No aplicable
Respuestas rápidas	No aplicable

Nodo de Pregunta

Feature	Apoyo
Texto de la indicación	Soportado
Suspensión automática	No soportado
Relleno de ranuras	Soportado
Comportamiento de omisión/Relleno voraz de ranuras	Soportado
Volver a solicitar/Reintentar	Soportado
Control de respuestas no válido	Soportado
Interrupción del tema	Soportado
Interrumpir	Soportado
Personalizar mensaje de nueva solicitud	Soportado
Entrada DTMF	Soportado
Detección de silencio	Soportado

Nodo HTTP

Característica	Apoyo
Métodos HTTP: GET, POST, PUT, PATCH, DELETE	Soportado
Puntos de conexión de la URL	Soportado
Encabezados y cargas	Soportado
Análisis y esquema de respuestas	Soportado
Mapeo de variables	Soportado
Gestión de errores	Soportado

Nodo de la herramienta

Feature	Apoyo
Flujo de Power Automate	Soportado
Invocación de herramientas	Soportado
Asignación de entrada/salida	Soportado
Mensaje nuevo	Soportado

Nodo para establecer el valor de una variable

Característica	Apoyo
Asignación literal	Soportado
Asignación de expresiones	Soportado
De variable a variable	Soportado

Nodo de administración de temas

Característica	Apoyo
Fin del tema actual	Soportado
Finalizar todos los temas	Soportado
Finalizar conversación	Soportado
Ir al paso	Soportado
Entrada del usuario para reconocer la intención	Soportado
Ir a otro tema	Soportado

Transferir nodo de conversación

Característica	Apoyo
Transferir a agente	Soportado
Transferencia de número de teléfono externo	Soportado

Advanced

Feature	Apoyo
Creación de respuestas generativas	Soportado

Soporte de activadores del sistema

Desencadenador	Apoyo	Detalles
Al iniciar la conversación	Soportado	Se desencadena cuando comienza una nueva conversación
Hablar con representante	Soportado	Transferencias al agente humano
Tema desconocido/Sobre intención desconocida	No soportado	Fallback cuando no coincida ningún asunto
OnSelectIntent (varios temas coincidentes)	No soportado	Desambiguación entre temas similares
Restablecer conversación (OnSystemRedirect)	Soportado	Borra las variables y reinicia el flujo.
Al iniciar sesión	No soportado
Pulsación de tecla DTMF desconocida	Soportado	Entrada del teclado sin asignar
El agente elige o el usuario dice una frase.	Soportado	El agente selecciona el tema en función de la intención.
Se recibe un mensaje	No soportado	Aumenta la latencia
Se produce un evento de cliente personalizado	No soportado	Solo en el inicio de sesión
Actualización de la conversación	No soportado	Miembros agregados o eliminados, cambios de sesión
Se invoca	No soportado	Requiere una interfaz de usuario sincrónica
Se redirige	Soportado
El usuario está inactivo durante un tiempo o detección de silencio	Soportado	Tiempo de inactividad del usuario
Se completa un plan	No soportado
Respuesta de IA generada	No soportado
Al producirse un error	Soportado	Controla los errores de orquestación.

Pasar variables entre temas y el modelo de lenguaje

Cuando se usan temas en un flujo de conversación híbrido, comprender cómo pasar variables entre temas y el modelo de lenguaje en tiempo real, es fundamental para crear interacciones fiables y con estado.

Esta funcionalidad funciona mediante el siguiente proceso:

Se pasan variables de entrada definidas en un tema en el momento de la invocación, por lo que el modelo de lenguaje, puede proporcionar datos estructurados al flujo determinista.
Se devuelven al modelo de lenguaje las variables de salida definidas en un tema, al final de la ejecución del tema, como pares clave-valor estructurados. El modelo lingüístico incluye estos resultados en el contexto conversacional, y usted puede referirse a ellos en turnos posteriores.
Las salidas de llamada de herramienta siguen el mismo patrón: se envían salidas al modelo de lenguaje al final de la ejecución de la herramienta y están disponibles para su uso futuro en la ventana de contexto de conversación.
El modelo de lenguaje se rellena con el contexto conversacional, incluidos los pares clave-valor de la llamada a la herramienta. Sin embargo, solo se devuelven variables de salida definidas explícitamente como datos estructurados. Puede recopilar un valor dentro de un tema, como un número de cuenta comprobado. Defina ese valor como salida. Si no lo hace, el modelo de lenguaje no puede acceder a él. El agente podría pedir al autor de la llamada la misma información más adelante.

Obtenga más información en Administración de entradas y salidas de temas.

Compatibilidad con varios idiomas

Agregue todos los idiomas secundarios que desee. Las cadenas de localización no son necesarias para los flujos en tiempo real. Sin embargo, para los mensajes de tema deterministas, debe proporcionar los mensajes traducidos. Obtenga más información en Configuración y creación de agentes multilingües.

El modelo en tiempo real puede comprender y responder en muchos lenguajes. Sin embargo, Microsoft no valida formalmente todos los idiomas para obtener disponibilidad general.

A partir de abril de 2026, se validan formalmente los siguientes idiomas:

Inglés (Estados Unidos) (en-US)
Español (Estados Unidos) (es-US)
Árabe
Portugués (Brasil) (pt-BR)
Italiano (Italia) (it-IT)
Alemán (Alemania) (de-DE)
Holandés (Países Bajos) (nl-NL)
Francés (Canadá) (fr-CA)

Microsoft continúa validando otros idiomas y los agrega después de la finalización de la certificación. Puede agregar cualquier idioma compatible con Copilot Studio. Sin embargo, los idiomas que no están totalmente certificados para la calidad de disponibilidad general, GA, deben probarse exhaustivamente antes de la implementación en producción.

Importante

La funcionalidad de lenguaje técnico no es igual a un idioma compatible o certificado. Si tiene previsto implementar agentes en idiomas distintos del inglés, debe realizar pruebas exhaustivas con autores de llamadas reales y flujos de llamadas antes de empezar a funcionar.

Variables de contexto

Un agente de voz en tiempo real admite variables de contexto que le permiten comportarse de forma más inteligente llevando información sobre la llamada, el autor de la llamada y la conversación actual. El sistema proporciona automáticamente un conjunto limitado de contexto de llamada y conversación al modelo en tiempo de ejecución. Este conjunto incluye:

Variable de contexto	Descripción
Id. de canal	Identifica el canal de comunicación usado para la interacción. Esta identificación ayuda al modelo a comprender que la conversación se está produciendo a través de un canal de voz a voz.
Número de teléfono del autor de la llamada (ANI)	Número de teléfono de origen del autor de la llamada. El sistema puede usar esta información para admitir escenarios de identificación del autor de la llamada.
Número del llamado (DNIS)	Número de teléfono de destino que marcó el autor de la llamada. Esta información ayuda a distinguir el número de identificación empresarial o el punto de entrada al que se llegó.
Id. de la conversación	Identificador único de la sesión de llamada activa. Use este valor para correlacionar y mantener la continuidad dentro de una sola conversación.
Encabezados SIP	Conjunto de pares clave-valor de encabezados SIP admitidos asociados a la llamada. El conjunto solo incluye encabezados, no confidenciales y compatibles.
Fecha actual (UTC)	La fecha actual en hora universal coordinada (UTC), proporcionada en tiempo de ejecución para permitir respuestas conscientes de las fechas.
Hora actual (UTC)	La hora actual en hora universal coordinada (UTC), proporcionada en tiempo de ejecución para permitir respuestas compatibles con el tiempo.

Para todas las demás variables de contexto, siga los pasos descritos en Configuración de variables de contexto para agentes.

Voz del agente

Seleccione la voz que usa el agente seleccionando el agente y vaya a Configuración>Voz>Seleccionar voz. Los agentes de voz en tiempo real admiten las siguientes voces:

Aleación
Ceniza
Balada
Coral
Eco
Sage
Brillo
Verse
Marin
Cedar

Nota:

La voz del agente es para el agente de voz en tiempo real y no es la configurada en el Centro de administración del servicio Copilot.
Para alinear las voces de los mensajes del sistema Dynamics con las de su agente de voz en tiempo real, utilice solo las siguientes voces admitidas: Alloy, Echo, Shimmer o Ash.

Sensibilidad de voz

La detección de actividad de voz por sensibilidad de voz (VAD) determina cuándo el agente debe responder después de que el interlocutor termine de hablar.

Comprensión de los tipos de VAD

Los agentes de voz en tiempo real admiten dos enfoques VAD:

Captura de pantalla del cuadro de diálogo de sensibilidad del habla.

VAD basado en servidor: basado en sonido (silencio)

Detecta el final de la voz en función de las señales de audio (duración del silencio, volumen)
Responde rápidamente una vez detectado el silencio
Comportamiento determinista y predecible
Ideal para interacciones estructuradas, respuestas cortas, entornos ruidosos

VAD semántico: basado en el contexto de oración

Determina la finalización de turnos en función del significado de lo que se dijo.
Evalúa si el autor de la llamada completó su opinión
Se adapta a pausas naturales, palabras de relleno, locuciones inconclusas
Ideal para: Interacciones conversacionales, preguntas complejas, discusiones abiertas

Seleccione el VAD correcto.

Use VAD basado en servidor cuando se cumplen todas las condiciones siguientes:

Las interacciones están estructuradas (navegación de menú de estilo IVR).
Las respuestas son cortas y predecibles.
El ruido de fondo es un problema (el VAD semántico puede esperar demasiado tiempo).
Quiere una interacción rápida y clara.

Use VAD semántico cuando se cumplen todas las condiciones siguientes:

Las conversaciones son abiertas y sin un final definido.
Los autores de llamadas pueden dudar o usar palabras de relleno ("um", "déjame pensar...").
Las preguntas son complejas (los autores de la llamada explican situaciones).
El flujo de conversación natural tiene prioridad.

Configurar VAD basado en servidor

Vaya a Configuración>Voz>Configuración del teléfono>Entrada de voz>Sensibilidad>Basado en el sonido (silencio).

Captura de pantalla del cuadro de diálogo de sensibilidad del habla cuando se establece en Basado en sonido (silencio).

Parámetro	Descripción	Predeterminado	Intervalo recomendado
Umbral	Sensibilidad a la voz frente al ruido (escala de 0 a 1)	0.6	0.5-0.7
Relleno de prefijo (ms)	Audio capturado antes de que se inicie la voz	300 ms	200-500 ms
Duración del silencio (ms)	Silencio necesario para finalizar el turno	750 milisegundos	750-1000 ms

Umbral

Menor (0.3-0.4): Más sensible; capta voces bajas, podría activarse con el ruido de fondo.
Mayor (0,7-0,9): menos sensible; requiere voz más alta, reduce los desencadenadores falsos.
Recomendado: Comience con 0,5; aumenta si el ruido de fondo provoca desencadenadores falsos.

Relleno de prefijo

Captura el audio antes de la detección de voz (evita cortar la primera palabra).
Inferior (200 ms): respuesta más rápida; es posible que se pierda la primera syllable.
Mayor (500 ms): captura más segura; ligero retraso.
Recomendado: 300 ms (buen equilibrio).

Duración del silencio

Cuánto tiempo debe ser silencioso el autor de la llamada antes de que responda el agente.
Bajo (500 ms): interacción rápida; puede interrumpir si el interlocutor pausa y duda.
Más alto (1000 ms): más paciente; puede parecer lento.
Recomendado: comience con 750 ms.

Configurar VAD semántico

Vaya a Configuración>Voz>Configuración del teléfono>Entrada de voz>Sensibilidad>Basado en el contexto de la oración.

Captura de pantalla del cuadro de diálogo de sensibilidad del habla cuando se establece en Basado en el contexto de la oración.

Parámetro: Entusiasmo (la rapidez con la que responde el agente después de la finalización semántica)

Configuración	Comportamiento	Más adecuado para
Bajo	Espera más tiempo, muy paciente	Personas que llaman que piensan en voz alta y hacen pausas frecuentes
Medio	Equilibrado (valor predeterminado)	Conversaciones generales
Alto	Responde rápidamente	Interacciones rápidas, preguntas sencillas

Configuración de DTMF

Multi-Frecuencia de Doble Tono (DTMF) permite a los llamantes ingresar información usando el teclado de su teléfono.

Puede activar DTMF para tu agente tanto a nivel de tema como a nivel global. Para establecerlo en el nivel global, seleccione su agente y vaya a Configuración>Voz>Comportamiento de conversación>DTMF.

Para establecerlo por cada nodo de tema, obtenga más información en Habilitar compatibilidad con DTMF para el agente con capacidades de voz.

Para admitir la finalización fiable de la entrada, puede configurar la temporización y el comportamiento de finalización de DTMF. Esta configuración incluye un tiempo de espera entre dígitos, que define cuánto tiempo espera el sistema entre pulsaciones de teclas y un carácter de terminación opcional (como # o *) que indica explícitamente el final de la entrada. Cuando se usa un carácter de terminación, el sistema procesa la entrada inmediatamente sin esperar un tiempo de espera.

Detección de silencio

La detección de silencio permite a los agentes de voz en tiempo real reconocer cuándo un autor de llamada no proporciona ninguna entrada durante un período especificado. Configure la detección de silencio como una configuración global de voz para el agente. Para ello, vaya a Configuración>Voz>Comportamiento de conversación>Detección de silencio.

El temporizador de silencio se inicia cuando el agente termina de hablar y no detecta ninguna entrada de voz o DTMF del autor de la llamada. Si se alcanza el tiempo de espera de silencio, el agente sigue el tema de detección de silencio configurado.

Importante

La detección de silencio no está activada de forma predeterminada. Si el usuario no habla, el agente espera indefinidamente sin preguntar. Active explícitamente la detección de silencio y configure un mensaje de reinstrucción para manejar las llamadas silenciosas.
El tiempo de espera de detección de silencio predeterminado es de 7000 ms (7 segundos). Valide este valor de acuerdo a su caso de uso específico y entorno de llamada antes de implementarlo en producción. Siete segundos pueden parecer demasiado largos para algunos autores de llamadas o demasiado cortos para otros en función de la naturaleza de la interacción, por ejemplo, preguntas complejas o entornos ruidosos. Pruebe con datos de llamadas reales para determinar el umbral adecuado para su escenario.
Antes de habilitar la detección de silencio, asegúrese de que el comportamiento que configure en el tema de detección de silencio (por ejemplo, Escalar, Colgar, Resolicitar) sea intencionado y adecuado para su caso de uso. El comportamiento de respaldo mal configurado, como establecer involuntariamente el comportamiento de respaldo en Escalar cuando la intención es colgar, o viceversa, puede dar lugar a resultados inesperados de llamadas.

Mensajes de latencia

Agregue un mensaje de latencia o música al agente cuando las operaciones en segundo plano se demoren más de lo esperado. Para configurar la mensajería de latencia, vaya a Configuración>Voz>Comportamiento de conversación>Mensajería de latencia.

Evaluación del agente de voz en tiempo real (versión preliminar)

Sin embargo, los agentes de voz en tiempo real admiten el envío de texto durante la evaluación; sin embargo, no se admite el procesamiento de audio.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-05-01

Configuración de agentes de voz en tiempo real

Configuración y habilitación de voz en tiempo real

Conocimientos y herramientas

Agentes anidados (versión preliminar)

Temas

Procedimientos recomendados al usar temas con agentes de voz en tiempo real

Soporte de nodos de tema

Nodo de condiciones

Nodo de mensaje

Nodo de Pregunta

Nodo HTTP

Nodo de la herramienta

Nodo para establecer el valor de una variable

Nodo de administración de temas

Transferir nodo de conversación

Advanced

Soporte de activadores del sistema

Pasar variables entre temas y el modelo de lenguaje

Compatibilidad con varios idiomas

Variables de contexto

Voz del agente

Sensibilidad de voz

Comprensión de los tipos de VAD

Seleccione el VAD correcto.

Configurar VAD basado en servidor

Umbral

Relleno de prefijo

Duración del silencio

Configurar VAD semántico

Configuración de DTMF

Detección de silencio

Mensajes de latencia

Evaluación del agente de voz en tiempo real (versión preliminar)

Comentarios

Recursos adicionales