Evaluación de conversaciones de varios turnos

Los usuarios reales no interactúan con los agentes a través de intercambios aislados de una sola pregunta. En su lugar, se involucran en conversaciones que incluyen preguntas de seguimiento, uso compartido de información incremental y finalización de tareas de varios pasos.

La evaluación multiturno ayuda a garantizar que el agente pueda mantener el contexto, completar tareas en varios pasos y responder adecuadamente a lo largo de un flujo de conversación realista.

Cuándo usar la evaluación de varios turnos

Use la evaluación de varios turnos al probar escenarios que requieren retención de contexto o varios pasos para completar una tarea.

Escenario	Por qué se necesita multiturno
Relleno de ranuras	El agente debe recopilar varios fragmentos de información.
Flujos de aclaración	El agente debe resolver la entrada ambigua del usuario.
Tareas de varios pasos	La tarea requiere que se completen varios intercambios.
Seguimientos dependientes del contexto	Las preguntas posteriores dependen de respuestas anteriores.
Divulgación progresiva	La información se proporciona de forma incremental.

Evaluación de un solo turno frente a varios turnos

Comience con evaluaciones de un solo turno para la cobertura y, a continuación, agregue evaluaciones de varios turnos para probar interacciones realistas.

Aspecto	Un solo turno	Multiturno
Pruebas	Pares de preguntas y respuestas individuales	Conversaciones completas
Contexto	Cada símbolo del sistema es independiente	Activa la compilación entre sí
Complejidad	Más fácil de diseñar y evaluar	Más realista pero complejo
Diagnóstico de errores	Problemas más fáciles de aislar	Requiere análisis paso a paso
Caso de uso	Prueba de respuestas específicas	Probar el flujo de conversación

Métricas clave para la evaluación de varios turnos

La evaluación de varios turnos requiere métricas adicionales más allá de la precisión de un solo turno. Estas métricas evalúan el rendimiento del agente en toda una conversación.

Integridad de la conversación

La integridad de la conversación mide si el agente logra el objetivo del usuario al final de la interacción.

Ejemplo correcto

Turno 1

Usuario: "Necesito pedir un portátil"
Agente: "Puedo ayudar con eso. ¿Qué tipo de portátil necesita?"

Turno 2

Usuario: "MacBook Pro"
Agente: "¿Qué tamaño de pantalla: 14 pulgadas o 16 pulgadas?"

Turno 3

Usuario: "16 pulgadas"
Agente: "He enviado su pedido para un MacBook Pro de 16 pulgadas. Id. de pedido: ORD-456. Entrega esperada: 5-7 días laborables."

✅ Se logra el objetivo del usuario (pedir un portátil).

Ejemplo de error

Turno 1

Usuario: "Necesito pedir un portátil"
Agente: "Puedo ayudar con eso. ¿Qué tipo de portátil necesita?"

Turno 2

Usuario: "MacBook Pro"
Agente: "MacBook Pro es una excelente opción! ¿Hay algo más?"

❌ El pedido no se envió y no se logró el objetivo del usuario.

Retención de conocimientos

La retención de conocimiento mide si el agente recuerda y usa la información proporcionada en turnos anteriores.

Ejemplo correcto

Turno 1

Usuario: "Mi identificador de empleado es EMP-12345"
Agente: "Gracias! ¿En qué puedo ayudarle?"

Turno 2

Usuario: "Quiero comprobar mi saldo de PTO"
Agente: "El saldo actual de la TDF es de 12 días restantes".

✅ El agente usó el identificador de empleado proporcionado anteriormente sin volver a preguntar.

Ejemplo de error

Turno 1

Usuario: "Mi identificador de empleado es EMP-12345"
Agente: "Gracias! ¿En qué puedo ayudarle?"

Turno 2

Usuario: "Quiero comprobar mi saldo de PTO"
Agente: "Me encantaría ayudar. ¿Cuál es su identificador de empleado?"

❌ El agente olvidó el identificador de empleado del turno anterior.

Cumplimiento del rol

La adhesión al rol mide si el agente mantiene su ámbito definido y sus responsabilidades a lo largo de la conversación.

Ejemplo correcto

Turno 1

Usuario: "¿Cuál es la directiva de PTO?"
Agente: proporciona la información correcta de la directiva de PTO

Turno 2

Usuario: "¿Puede escribir un poema sobre las vacaciones?"
Agente: "Estoy aquí para ayudar con las preguntas de RR. HH. e incorporación. ¿Hay algo más sobre la PTO con la que pueda ayudar?"

✅ El agente permaneció dentro de su rol y se redirigió correctamente.

Ejemplo de error

Turno 1

Usuario: "¿Cuál es la directiva de PTO?"
Agente: proporciona la información correcta de la directiva de PTO

Turno 2

Usuario: "¿Puede escribir un poema sobre las vacaciones?"
Agente: "¡Seguro! Este es un poema sobre las playas soleadas..."

❌El agente se desplazó de su rol como un asistente de RR. HH.

Relevancia de la conversación

La relevancia de la conversación mide si cada respuesta es directamente relevante para la solicitud del usuario dentro del contexto conversacional actual.

Ejemplo de error

Turno 1

Usuario: "¿Qué planes de mantenimiento están disponibles?"
Agente: enumera las opciones HMO y PPO

Turno 2

Usuario: "¿Cuál es la diferencia en el costo?"
Agente: "El PPO ofrece más flexibilidad para elegir médicos".

❌ La respuesta no aborda la pregunta del usuario sobre el costo.

Coherencia del contexto

La coherencia del contexto mide si el agente mantiene hechos e información coherentes en todos los turnos de la conversación.

Ejemplo de error

Turno 1

Usuario: "¿Cuántos días de vacaciones tengo?"
Agente: "Como nuevo empleado, recibe 15 días de PTO al año".

Turno 2

Usuario: "¿Y cuántos días de enfermedad?"
Agente: "Tiene 10 días de enfermedad, más sus 10 días de vacaciones".

❌ El agente contradice la información anterior cambiando el número de días de vacaciones.

Diseño de casos de prueba de varios turnos

El diseño de evaluaciones eficaces de varios turnos requiere definir el flujo de conversación y los comportamientos esperados. Un caso de prueba de varios turnos suele incluir:

Id. y descripción del caso de prueba
Datos de puesta a tierra
Secuencia de conversación
Comportamientos esperados
Aserciones

Ejemplo: Pedido de equipo

Identificador de caso de prueba: CONV-001
Descripción: Flujo de ordenación de equipos

Datos de puesta a tierra

Empleado: Katrin Pold
Id. de empleado: EMP-54321
Departamento: Diseño del producto
Presupuesto: $3,500

Conversación

Turno 1

Usuario: "Necesito configurar mi portátil".
Comportamiento esperado: pregunte sobre las preferencias.

Turno 2

Usuario: "MacBook Pro"
Comportamiento esperado: solicite especificaciones.

Turno 3

Usuario: "16 pulgadas con 32 GB de RAM"
Comportamiento esperado: confirme y envíe el pedido.

Turno 4

Usuario: "En realidad, cámbielo a 64 GB".
Comportamiento esperado: actualice el orden.

Aserciones de nivel de conversación

La conversación se completa con un pedido de equipo confirmado.
El orden final refleja la especificación corregida (64 GB).
El agente nunca solicita el identificador de empleado (debe deducirse del contexto).
El total de turnos hasta la finalización es ≤6.

Aserciones de nivel de turno

Turno 3:
- El agente invoca la herramienta OrderEquipment.
- La llamada a la herramienta incluye el modelo: "MacBook Pro de 16 pulgadas".
- La llamada a la herramienta incluye especificaciones que contienen "32 GB".
Turno 4:
- El agente invoca UpdateOrder o modifica el orden anterior.
- La confirmación final muestra "64 GB".

Ejemplo: Conversación de relleno de ranuras

Escenario: Inscripción de ventajas (relleno de ranuras)
Objetivo: Recopilar toda la información necesaria y completar la inscripción

Entradas necesarias (ranuras):

Selección del plan (HMO o PPO)
Nivel de cobertura (individual o familiar)
Información dependiente (si procede)
Fecha de vigencia

Conversación

Turno 1
Usuario: "Quiero suscribirme al seguro médico".
Agente:

Confirma la solicitud
Solicita preferencias de plan (HMO frente a PPO)

Turno 2
Usuario: "¿Cuál es la diferencia?"
Agente:

Explica las diferencias clave entre HMO y PPO
Volver a solicitar la selección del plan

Turno 3
Usuario: "Iré con el PPO".
Agente:

Confirma la selección
Solicita el nivel de cobertura (individual o familiar)

Turno 4
Usuario: "Cobertura familiar. Tengo un cónyuge y dos hijos."
Agente:

Confirma el escenario dependiente
Solicita detalles dependientes (nombres, edades, etc.)

Turno 5
Usuario: [Proporciona información dependiente]
Agente:

Confirma toda la información recopilada
Envía la inscripción
Proporciona un resumen de confirmación

Aserciones:

Todas las ranuras necesarias se recopilan antes del envío.
El agente no omite las entradas necesarias.
El agente explica las opciones cuando se le solicita.
La confirmación final incluye todos los detalles capturados.
La tarea se completa correctamente sin turnos innecesarios.

Ejemplo: Conversación de aclaración

Escenario: Solicitud ambigua (aclaración)
Objetivo: Resolver la ambigüedad mediante la recopilación de contexto suficiente antes de responder

Conversación

Turno 1
Usuario: "Tengo que tomarme un tiempo libre".
Agente:

Confirma la solicitud
Pregunta qué tipo de tiempo libre (PTO, licencia por enfermedad, licencia personal)

Turno 2
Usuario: "Es para un procedimiento médico".
Agente:

Identifica la categoría probable
Pregunta si la solicitud es para el usuario o un miembro de la familia

Turno 3
Usuario: "Es para mí. Es una cirugía menor".
Agente:

Determina que es probable que se trate de una licencia por enfermedad.
Proporciona información de directiva pertinente
Pregunta sobre la duración esperada

Turno 4
Usuario: "Aproximadamente una semana".
Agente:

Confirma la idoneidad y el proceso
Proporciona los pasos siguientes (por ejemplo, cómo solicitar permiso)
Ofrece iniciar la solicitud si procede

Aserciones:

El agente no asume la intención de la solicitud ambigua inicial.
Las preguntas aclarantes son pertinentes y limitan progresivamente el ámbito.
La respuesta final refleja la situación real del usuario.
El agente pasa de la aclaración a la resolución de forma eficaz.

Ejemplo: Conversación de recuperación de errores

Escenario: Error de pedido y recuperación
Objetivo: Controlar los errores de forma transparente y guiar al usuario a un resultado correcto

Conversación:

Turno 1
Usuario: "Order me a MacBook Pro 16-inch."
Agente:

Intenta enviar el pedido

Respuesta del sistema o herramienta:

Error: Elemento sin existencias

Agente:

Comunica el problema claramente
No oculta ni omite el error.
Sugiere alternativas (por ejemplo, un modelo o un tamaño diferentes)

Turno 2
Usuario: "¿Cuándo volverá a estar disponible?"
Agente:

Comprueba la disponibilidad o proporciona estimación de reposición si está disponible
Si no está disponible, lo comunica claramente
Ofertas para notificar al usuario o sugerir alternativas

Turno 3
Usuario: "¿Puedo obtener las 14 pulgadas en su lugar?"
Agente:

Confirma la disponibilidad de la alternativa
Envía el nuevo pedido
Proporciona confirmación (detalles del pedido, entrega esperada)

Aserciones:

El agente comunica claramente los errores y sus causas.
El agente ofrece alternativas accionables o pasos siguientes.
La conversación avanza hacia la recuperación, no hacia los extremos fallidos.
El usuario completa correctamente la tarea después del error.
El agente mantiene el contexto en los pasos de error y recuperación.

Aserciones de varios turnos

La evaluación de varios turnos requiere validación de nivel de conversación y de nivel de turno.

Aserciones de nivel de conversación

La conversación logra el objetivo del usuario.
El número de turnos está dentro de un intervalo esperado.
El agente mantiene información coherente.
El agente mantiene su rol.
El agente no solicita información duplicada.

Aserciones de nivel de turno

La respuesta confirma el contexto anterior.
La respuesta hace las preguntas de seguimiento adecuadas.
El agente realiza las acciones esperadas.
La respuesta confirma las acciones realizadas.

Aserciones condicionales

Cuando el usuario corrige la información, el agente actualiza las respuestas posteriores.
Cuando se produce un error en una acción, el agente comunica el problema y proporciona alternativas.
Cuando un usuario hace una pregunta fuera del ámbito, el agente redirige correctamente.

Ejemplo: Evaluación de varios turnos de un extremo a otro

Caso de prueba: Nueva configuración de contratación

Descripción

Un nuevo empleado ordena el equipo y hace una pregunta de beneficios durante la misma conversación.

Datos de puesta a tierra

Empleado: Marcus Johnson
Id. de empleado: EMP-99887
Departamento: Ingeniería
Ubicación: Seattle
Presupuesto de equipo: $4,000

Conversación

Turno 1

Usuario: "Estoy empezando la semana que viene y necesito configurar mi estación de trabajo".
Comportamiento esperado: bienvenido y pregunte sobre las necesidades del equipo.

Turno 2

Usuario: "Necesito un MacBook Pro de 16 pulgadas con 64 GB de RAM y un monitor de 27 pulgadas".
Comportamiento esperado: envíe el pedido y confirme.

Turno 3

Usuario: "¿Cuándo es la fecha límite para suscribirse al seguro médico?"
Comportamiento esperado: proporcione información sobre las ventajas sin perder el contexto.

Turno 4

Usuario: "¿Puede confirmar lo que he pedido?"
Comportamiento esperado: recupere y resuma el orden.

Resultados esperados

El pedido del equipo se ha completado.
La pregunta de beneficios se responde con precisión.
El contexto se conserva entre turnos.
La información no se vuelve a solicitar.

Problemas comunes

Tenga en cuenta estos problemas comunes al diseñar y evaluar conversaciones de varios turnos:

La evaluación se convierte en aislamiento en lugar de dentro del contexto de conversación completo, lo que puede ocultar errores relacionados con la memoria, la continuidad y la finalización de tareas.
Probar solo escenarios ideales (ruta de acceso feliz), que no reflejan el comportamiento real del usuario, como ambigüedad, correcciones e interrupciones.
Ignorar las diferencias entre las conversaciones cortas y largas, donde los flujos cortos suelen perder la finalización y los flujos largos introducen un desfase de contexto.
Sin incluir comportamientos de usuario adversarios o inesperados, como entradas en conflicto, cambio de tema o solicitudes vagas.
Definir objetivos de usuario no claros o implícitos, lo que dificulta determinar si la conversación se realizó correctamente.
Especificar en exceso las respuestas esperadas, lo que reduce la flexibilidad y penaliza incorrectamente las variaciones válidas.
No se pueden probar las rutas de acceso de recuperación y control de errores, lo que deja lagunas en la forma en que el agente responde a errores o falta información.

Procedimientos recomendados

Use estas prácticas para diseñar evaluaciones multiturno eficaces y escalables:

Comience con un pequeño conjunto de escenarios de alto valor que representan los flujos de conversación más comunes o críticos.
Defina un objetivo de usuario claro para cada caso de prueba y use la finalización del objetivo como métrica de éxito principal.
Pruebe las rutas de acceso directas (el usuario proporciona todas las entradas por adelantado) y guiadas (el agente recopila entradas a través de varios turnos) hasta la finalización.
Use primero las aserciones de nivel de conversación y, a continuación, agregue aserciones de nivel de turno para una validación más profunda.
Escenarios de diseño que reflejan un comportamiento realista del usuario, incluidas aclaraciones, correcciones y cambio de tema.
Valide la retención de contexto explícitamente asegurándose de que el agente usa la información proporcionada anteriormente sin volver a preguntar.
Incluya escenarios de control de errores y recuperación, lo que garantiza que el agente comunica errores y proporciona los pasos siguientes.
Use aserciones flexibles basadas en el comportamiento en lugar de la coincidencia exacta de respuestas.
Asegúrese de que las pruebas son reproducibles y conservando el realismo mediante la definición de comportamientos esperados en lugar de expresiones exactas.
Itera y refina continuamente los casos de prueba en función de los errores observados y los patrones de uso en constante evolución.

Paso siguiente

Organizar categorías de prueba e iterar

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-04-29

Evaluación de conversaciones de varios turnos

Cuándo usar la evaluación de varios turnos

Evaluación de un solo turno frente a varios turnos

Métricas clave para la evaluación de varios turnos

Integridad de la conversación

Retención de conocimientos

Cumplimiento del rol

Relevancia de la conversación

Coherencia del contexto

Diseño de casos de prueba de varios turnos

Ejemplo: Pedido de equipo

Conversación

Aserciones de nivel de conversación

Aserciones de nivel de turno

Ejemplo: Conversación de relleno de ranuras

Conversación

Ejemplo: Conversación de aclaración

Conversación

Ejemplo: Conversación de recuperación de errores

Aserciones de varios turnos

Aserciones de nivel de conversación

Aserciones de nivel de turno

Aserciones condicionales

Ejemplo: Evaluación de varios turnos de un extremo a otro

Caso de prueba: Nueva configuración de contratación

Conversación

Resultados esperados

Problemas comunes

Procedimientos recomendados

Paso siguiente

Comentarios

Recursos adicionales