Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Los usuarios reales no interactúan con los agentes a través de intercambios aislados de una sola pregunta. En su lugar, se involucran en conversaciones que incluyen preguntas de seguimiento, uso compartido de información incremental y finalización de tareas de varios pasos.
La evaluación multiturno ayuda a garantizar que el agente pueda mantener el contexto, completar tareas en varios pasos y responder adecuadamente a lo largo de un flujo de conversación realista.
Cuándo usar la evaluación de varios turnos
Use la evaluación de varios turnos al probar escenarios que requieren retención de contexto o varios pasos para completar una tarea.
| Escenario | Por qué se necesita multiturno |
|---|---|
| Relleno de ranuras | El agente debe recopilar varios fragmentos de información. |
| Flujos de aclaración | El agente debe resolver la entrada ambigua del usuario. |
| Tareas de varios pasos | La tarea requiere que se completen varios intercambios. |
| Seguimientos dependientes del contexto | Las preguntas posteriores dependen de respuestas anteriores. |
| Divulgación progresiva | La información se proporciona de forma incremental. |
Evaluación de un solo turno frente a varios turnos
Comience con evaluaciones de un solo turno para la cobertura y, a continuación, agregue evaluaciones de varios turnos para probar interacciones realistas.
| Aspecto | Un solo turno | Multiturno |
|---|---|---|
| Pruebas | Pares de preguntas y respuestas individuales | Conversaciones completas |
| Contexto | Cada símbolo del sistema es independiente | Activa la compilación entre sí |
| Complejidad | Más fácil de diseñar y evaluar | Más realista pero complejo |
| Diagnóstico de errores | Problemas más fáciles de aislar | Requiere análisis paso a paso |
| Caso de uso | Prueba de respuestas específicas | Probar el flujo de conversación |
Métricas clave para la evaluación de varios turnos
La evaluación de varios turnos requiere métricas adicionales más allá de la precisión de un solo turno. Estas métricas evalúan el rendimiento del agente en toda una conversación.
Integridad de la conversación
La integridad de la conversación mide si el agente logra el objetivo del usuario al final de la interacción.
Ejemplo correcto
Turno 1
- Usuario: "Necesito pedir un portátil"
- Agente: "Puedo ayudar con eso. ¿Qué tipo de portátil necesita?"
Turno 2
- Usuario: "MacBook Pro"
- Agente: "¿Qué tamaño de pantalla: 14 pulgadas o 16 pulgadas?"
Turno 3
- Usuario: "16 pulgadas"
- Agente: "He enviado su pedido para un MacBook Pro de 16 pulgadas. Id. de pedido: ORD-456. Entrega esperada: 5-7 días laborables."
✅ Se logra el objetivo del usuario (pedir un portátil).
Ejemplo de error
Turno 1
- Usuario: "Necesito pedir un portátil"
- Agente: "Puedo ayudar con eso. ¿Qué tipo de portátil necesita?"
Turno 2
- Usuario: "MacBook Pro"
- Agente: "MacBook Pro es una excelente opción! ¿Hay algo más?"
❌ El pedido no se envió y no se logró el objetivo del usuario.
Retención de conocimientos
La retención de conocimiento mide si el agente recuerda y usa la información proporcionada en turnos anteriores.
Ejemplo correcto
Turno 1
- Usuario: "Mi identificador de empleado es EMP-12345"
- Agente: "Gracias! ¿En qué puedo ayudarle?"
Turno 2
- Usuario: "Quiero comprobar mi saldo de PTO"
- Agente: "El saldo actual de la TDF es de 12 días restantes".
✅ El agente usó el identificador de empleado proporcionado anteriormente sin volver a preguntar.
Ejemplo de error
Turno 1
- Usuario: "Mi identificador de empleado es EMP-12345"
- Agente: "Gracias! ¿En qué puedo ayudarle?"
Turno 2
- Usuario: "Quiero comprobar mi saldo de PTO"
- Agente: "Me encantaría ayudar. ¿Cuál es su identificador de empleado?"
❌ El agente olvidó el identificador de empleado del turno anterior.
Cumplimiento del rol
La adhesión al rol mide si el agente mantiene su ámbito definido y sus responsabilidades a lo largo de la conversación.
Ejemplo correcto
Turno 1
- Usuario: "¿Cuál es la directiva de PTO?"
- Agente: proporciona la información correcta de la directiva de PTO
Turno 2
- Usuario: "¿Puede escribir un poema sobre las vacaciones?"
- Agente: "Estoy aquí para ayudar con las preguntas de RR. HH. e incorporación. ¿Hay algo más sobre la PTO con la que pueda ayudar?"
✅ El agente permaneció dentro de su rol y se redirigió correctamente.
Ejemplo de error
Turno 1
- Usuario: "¿Cuál es la directiva de PTO?"
- Agente: proporciona la información correcta de la directiva de PTO
Turno 2
- Usuario: "¿Puede escribir un poema sobre las vacaciones?"
- Agente: "¡Seguro! Este es un poema sobre las playas soleadas..."
❌El agente se desplazó de su rol como un asistente de RR. HH.
Relevancia de la conversación
La relevancia de la conversación mide si cada respuesta es directamente relevante para la solicitud del usuario dentro del contexto conversacional actual.
Ejemplo de error
Turno 1
- Usuario: "¿Qué planes de mantenimiento están disponibles?"
- Agente: enumera las opciones HMO y PPO
Turno 2
- Usuario: "¿Cuál es la diferencia en el costo?"
- Agente: "El PPO ofrece más flexibilidad para elegir médicos".
❌ La respuesta no aborda la pregunta del usuario sobre el costo.
Coherencia del contexto
La coherencia del contexto mide si el agente mantiene hechos e información coherentes en todos los turnos de la conversación.
Ejemplo de error
Turno 1
- Usuario: "¿Cuántos días de vacaciones tengo?"
- Agente: "Como nuevo empleado, recibe 15 días de PTO al año".
Turno 2
- Usuario: "¿Y cuántos días de enfermedad?"
- Agente: "Tiene 10 días de enfermedad, más sus 10 días de vacaciones".
❌ El agente contradice la información anterior cambiando el número de días de vacaciones.
Diseño de casos de prueba de varios turnos
El diseño de evaluaciones eficaces de varios turnos requiere definir el flujo de conversación y los comportamientos esperados. Un caso de prueba de varios turnos suele incluir:
- Id. y descripción del caso de prueba
- Datos de puesta a tierra
- Secuencia de conversación
- Comportamientos esperados
- Aserciones
Ejemplo: Pedido de equipo
- Identificador de caso de prueba: CONV-001
- Descripción: Flujo de ordenación de equipos
Datos de puesta a tierra
- Empleado: Katrin Pold
- Id. de empleado: EMP-54321
- Departamento: Diseño del producto
- Presupuesto: $3,500
Conversación
Turno 1
- Usuario: "Necesito configurar mi portátil".
- Comportamiento esperado: pregunte sobre las preferencias.
Turno 2
- Usuario: "MacBook Pro"
- Comportamiento esperado: solicite especificaciones.
Turno 3
- Usuario: "16 pulgadas con 32 GB de RAM"
- Comportamiento esperado: confirme y envíe el pedido.
Turno 4
- Usuario: "En realidad, cámbielo a 64 GB".
- Comportamiento esperado: actualice el orden.
Aserciones de nivel de conversación
- La conversación se completa con un pedido de equipo confirmado.
- El orden final refleja la especificación corregida (64 GB).
- El agente nunca solicita el identificador de empleado (debe deducirse del contexto).
- El total de turnos hasta la finalización es ≤6.
Aserciones de nivel de turno
-
Turno 3:
- El agente invoca la herramienta OrderEquipment.
- La llamada a la herramienta incluye el modelo: "MacBook Pro de 16 pulgadas".
- La llamada a la herramienta incluye especificaciones que contienen "32 GB".
-
Turno 4:
- El agente invoca UpdateOrder o modifica el orden anterior.
- La confirmación final muestra "64 GB".
Ejemplo: Conversación de relleno de ranuras
Escenario: Inscripción de ventajas (relleno de ranuras)
Objetivo: Recopilar toda la información necesaria y completar la inscripción
Entradas necesarias (ranuras):
- Selección del plan (HMO o PPO)
- Nivel de cobertura (individual o familiar)
- Información dependiente (si procede)
- Fecha de vigencia
Conversación
Turno 1
Usuario: "Quiero suscribirme al seguro médico".
Agente:
- Confirma la solicitud
- Solicita preferencias de plan (HMO frente a PPO)
Turno 2
Usuario: "¿Cuál es la diferencia?"
Agente:
- Explica las diferencias clave entre HMO y PPO
- Volver a solicitar la selección del plan
Turno 3
Usuario: "Iré con el PPO".
Agente:
- Confirma la selección
- Solicita el nivel de cobertura (individual o familiar)
Turno 4
Usuario: "Cobertura familiar. Tengo un cónyuge y dos hijos."
Agente:
- Confirma el escenario dependiente
- Solicita detalles dependientes (nombres, edades, etc.)
Turno 5
Usuario: [Proporciona información dependiente]
Agente:
- Confirma toda la información recopilada
- Envía la inscripción
- Proporciona un resumen de confirmación
Aserciones:
- Todas las ranuras necesarias se recopilan antes del envío.
- El agente no omite las entradas necesarias.
- El agente explica las opciones cuando se le solicita.
- La confirmación final incluye todos los detalles capturados.
- La tarea se completa correctamente sin turnos innecesarios.
Ejemplo: Conversación de aclaración
Escenario: Solicitud ambigua (aclaración)
Objetivo: Resolver la ambigüedad mediante la recopilación de contexto suficiente antes de responder
Conversación
Turno 1
Usuario: "Tengo que tomarme un tiempo libre".
Agente:
- Confirma la solicitud
- Pregunta qué tipo de tiempo libre (PTO, licencia por enfermedad, licencia personal)
Turno 2
Usuario: "Es para un procedimiento médico".
Agente:
- Identifica la categoría probable
- Pregunta si la solicitud es para el usuario o un miembro de la familia
Turno 3
Usuario: "Es para mí. Es una cirugía menor".
Agente:
- Determina que es probable que se trate de una licencia por enfermedad.
- Proporciona información de directiva pertinente
- Pregunta sobre la duración esperada
Turno 4
Usuario: "Aproximadamente una semana".
Agente:
- Confirma la idoneidad y el proceso
- Proporciona los pasos siguientes (por ejemplo, cómo solicitar permiso)
- Ofrece iniciar la solicitud si procede
Aserciones:
- El agente no asume la intención de la solicitud ambigua inicial.
- Las preguntas aclarantes son pertinentes y limitan progresivamente el ámbito.
- La respuesta final refleja la situación real del usuario.
- El agente pasa de la aclaración a la resolución de forma eficaz.
Ejemplo: Conversación de recuperación de errores
Escenario: Error de pedido y recuperación
Objetivo: Controlar los errores de forma transparente y guiar al usuario a un resultado correcto
Conversación:
Turno 1
Usuario: "Order me a MacBook Pro 16-inch."
Agente:
- Intenta enviar el pedido
Respuesta del sistema o herramienta:
- Error: Elemento sin existencias
Agente:
- Comunica el problema claramente
- No oculta ni omite el error.
- Sugiere alternativas (por ejemplo, un modelo o un tamaño diferentes)
Turno 2
Usuario: "¿Cuándo volverá a estar disponible?"
Agente:
- Comprueba la disponibilidad o proporciona estimación de reposición si está disponible
- Si no está disponible, lo comunica claramente
- Ofertas para notificar al usuario o sugerir alternativas
Turno 3
Usuario: "¿Puedo obtener las 14 pulgadas en su lugar?"
Agente:
- Confirma la disponibilidad de la alternativa
- Envía el nuevo pedido
- Proporciona confirmación (detalles del pedido, entrega esperada)
Aserciones:
- El agente comunica claramente los errores y sus causas.
- El agente ofrece alternativas accionables o pasos siguientes.
- La conversación avanza hacia la recuperación, no hacia los extremos fallidos.
- El usuario completa correctamente la tarea después del error.
- El agente mantiene el contexto en los pasos de error y recuperación.
Aserciones de varios turnos
La evaluación de varios turnos requiere validación de nivel de conversación y de nivel de turno.
Aserciones de nivel de conversación
- La conversación logra el objetivo del usuario.
- El número de turnos está dentro de un intervalo esperado.
- El agente mantiene información coherente.
- El agente mantiene su rol.
- El agente no solicita información duplicada.
Aserciones de nivel de turno
- La respuesta confirma el contexto anterior.
- La respuesta hace las preguntas de seguimiento adecuadas.
- El agente realiza las acciones esperadas.
- La respuesta confirma las acciones realizadas.
Aserciones condicionales
- Cuando el usuario corrige la información, el agente actualiza las respuestas posteriores.
- Cuando se produce un error en una acción, el agente comunica el problema y proporciona alternativas.
- Cuando un usuario hace una pregunta fuera del ámbito, el agente redirige correctamente.
Ejemplo: Evaluación de varios turnos de un extremo a otro
Caso de prueba: Nueva configuración de contratación
Descripción
Un nuevo empleado ordena el equipo y hace una pregunta de beneficios durante la misma conversación.
Datos de puesta a tierra
- Empleado: Marcus Johnson
- Id. de empleado: EMP-99887
- Departamento: Ingeniería
- Ubicación: Seattle
- Presupuesto de equipo: $4,000
Conversación
Turno 1
- Usuario: "Estoy empezando la semana que viene y necesito configurar mi estación de trabajo".
- Comportamiento esperado: bienvenido y pregunte sobre las necesidades del equipo.
Turno 2
- Usuario: "Necesito un MacBook Pro de 16 pulgadas con 64 GB de RAM y un monitor de 27 pulgadas".
- Comportamiento esperado: envíe el pedido y confirme.
Turno 3
- Usuario: "¿Cuándo es la fecha límite para suscribirse al seguro médico?"
- Comportamiento esperado: proporcione información sobre las ventajas sin perder el contexto.
Turno 4
- Usuario: "¿Puede confirmar lo que he pedido?"
- Comportamiento esperado: recupere y resuma el orden.
Resultados esperados
- El pedido del equipo se ha completado.
- La pregunta de beneficios se responde con precisión.
- El contexto se conserva entre turnos.
- La información no se vuelve a solicitar.
Problemas comunes
Tenga en cuenta estos problemas comunes al diseñar y evaluar conversaciones de varios turnos:
- La evaluación se convierte en aislamiento en lugar de dentro del contexto de conversación completo, lo que puede ocultar errores relacionados con la memoria, la continuidad y la finalización de tareas.
- Probar solo escenarios ideales (ruta de acceso feliz), que no reflejan el comportamiento real del usuario, como ambigüedad, correcciones e interrupciones.
- Ignorar las diferencias entre las conversaciones cortas y largas, donde los flujos cortos suelen perder la finalización y los flujos largos introducen un desfase de contexto.
- Sin incluir comportamientos de usuario adversarios o inesperados, como entradas en conflicto, cambio de tema o solicitudes vagas.
- Definir objetivos de usuario no claros o implícitos, lo que dificulta determinar si la conversación se realizó correctamente.
- Especificar en exceso las respuestas esperadas, lo que reduce la flexibilidad y penaliza incorrectamente las variaciones válidas.
- No se pueden probar las rutas de acceso de recuperación y control de errores, lo que deja lagunas en la forma en que el agente responde a errores o falta información.
Procedimientos recomendados
Use estas prácticas para diseñar evaluaciones multiturno eficaces y escalables:
- Comience con un pequeño conjunto de escenarios de alto valor que representan los flujos de conversación más comunes o críticos.
- Defina un objetivo de usuario claro para cada caso de prueba y use la finalización del objetivo como métrica de éxito principal.
- Pruebe las rutas de acceso directas (el usuario proporciona todas las entradas por adelantado) y guiadas (el agente recopila entradas a través de varios turnos) hasta la finalización.
- Use primero las aserciones de nivel de conversación y, a continuación, agregue aserciones de nivel de turno para una validación más profunda.
- Escenarios de diseño que reflejan un comportamiento realista del usuario, incluidas aclaraciones, correcciones y cambio de tema.
- Valide la retención de contexto explícitamente asegurándose de que el agente usa la información proporcionada anteriormente sin volver a preguntar.
- Incluya escenarios de control de errores y recuperación, lo que garantiza que el agente comunica errores y proporciona los pasos siguientes.
- Use aserciones flexibles basadas en el comportamiento en lugar de la coincidencia exacta de respuestas.
- Asegúrese de que las pruebas son reproducibles y conservando el realismo mediante la definición de comportamientos esperados en lugar de expresiones exactas.
- Itera y refina continuamente los casos de prueba en función de los errores observados y los patrones de uso en constante evolución.