Introducción a la evaluación del agente

Para mejorar la calidad de los agentes declarativos y los agentesde motor personalizados, diseñe y ejecute evaluaciones de agentes. Las evaluaciones de agente se aplican a cualquier agente, independientemente de si usa Copilot Studio, el SDK de agentes de Microsoft 365 o la biblioteca de inteligencia artificial de Microsoft Teams para compilar el agente.

Por qué importa la evaluación

Sin evaluación, no puede medir de forma confiable si los cambios realizados en el agente mejoran o degradan la calidad. Entre los desafíos comunes se incluyen:

  • Los cambios se prueban manualmente, sin manera de confirmar que han ayudado.
  • Los problemas notificados por el usuario no se pueden reproducir de forma coherente.
  • Actualizar los orígenes de conocimiento conlleva un riesgo porque no se puede predecir el impacto.
  • Las partes interesadas preguntan si la calidad ha mejorado y no se puede cuantificar el cambio.

La evaluación proporciona un bucle de comentarios repetible que aborda cada uno de estos desafíos:

  • Realice un cambio. Ejecute el conjunto de pruebas. Los resultados muestran exactamente qué mejora o regresión.
  • Evaluar un informe de usuario. Agréguelo como un caso de prueba, corrija el problema y mantenga el caso en el conjunto de regresión para que permanezca corregido.
  • Actualizar orígenes de conocimiento. Ejecute evaluaciones para detectar regresiones antes que los usuarios.
  • Responda a las preguntas de las partes interesadas con los datos. En lugar de "se siente mejor", puede decir "La precisión de la directiva ha pasado del 87% al 96%".

La evaluación le ayuda a comprender lo que funciona y lo que no, y si los cambios mejoran el agente.

Conceptos básicos de evaluación

Las evaluaciones constan de los siguientes conceptos básicos:

  • Caso de prueba
  • Conjunto de pruebas
  • Prompt
  • Aserción
  • Señal de calidad
  • Calificador
  • Datos de puesta a tierra

Al ejecutar una evaluación:

  • Cada caso de prueba envía su mensaje al agente.
  • La respuesta del agente se comprueba con cada aserción mediante el calificador adecuado.
  • Los resultados se etiquetan con señales de calidad para el análisis.
  • Las métricas agregadas se calculan en todo el conjunto de pruebas.

Caso de prueba

Un caso de prueba es un único escenario de evaluación que consta de:

  • Un símbolo del sistema
  • Comportamiento esperado
  • Aserciones

Un caso de prueba bien diseñado es:

  • Independiente : se puede ejecutar sin depender de otras pruebas.
  • Repetible : genera resultados de error o paso coherentes.
  • Específico : prueba un escenario o una intención.

Ejemplo: Caso de prueba PTO-001

  • Mensaje: "¿Cuántos días de vacaciones obtengo como nuevo empleado?"
  • Comportamiento esperado: devolver la asignación de PTO correcta y citar el origen de la directiva
  • Aserciones:
    • La respuesta contiene "15 días"
    • La respuesta cita el Manual del Empleado o la directiva de la PTO
    • La respuesta no incluye los datos de otros empleados

Conjunto de pruebas

Un conjunto de pruebas es una colección de casos de prueba relacionados que permite:

  • Ejecución de varios escenarios a la vez
  • Medir el rendimiento agregado
  • Comparación de versiones a lo largo del tiempo
  • Organización de pruebas por funcionalidad o escenario

Prompt

Un mensaje es la entrada del usuario que está probando. Las solicitudes de evaluación correctas son:

  • Realista : se explica cómo se preguntan realmente los usuarios reales.
  • Intención única : pruebe una cosa a la vez (para evals de un solo turno).
  • Basado en datos reales : use valores y nombres de entidad reales cuando tenga datos de prueba.

Aserción

Una aserción es una expectativa única y verificable sobre la respuesta del agente. Las aserciones correctas son:

  • Atomic
  • Binario
  • Verificable
  • Centrado en el resultado

Señal de calidad

Una señal de calidad es una dimensión de calidad que ayuda a clasificar los errores y realizar un seguimiento de la mejora a lo largo del tiempo. Las señales de calidad le ayudan a:

  • Diagnostique los errores con más precisión.
  • Realice un seguimiento de las mejoras a lo largo del tiempo.
  • Comunique los resultados con terminología compartida.

Algunos ejemplos de señales de calidad son:

  • Precisión de la directiva
  • Atribución de origen
  • Personalización
  • Éxito de la herramienta
  • Idoneidad de la escalación

Calificador

Un calificador determina si una aserción pasa o produce un error. Entre los tipos de calificador comunes se incluyen:

  • Coincidencia de palabras clave : compruebe los términos necesarios
  • Coincidencia exacta : validación de valores estructurados como identificadores
  • Similitud de texto : comparación del significado semántico
  • LLM-as-judge : evaluar el tono o la calidad
  • Comprobación de herramientas : validación de la ejecución de api o herramientas

Datos de puesta a tierra

Los datos de puesta a tierra (datos de prueba o datos sintéticos) proporcionan valores realistas para las solicitudes y aserciones. Los datos de puesta a tierra permiten:

  • Aserciones concretas
  • Escenarios realistas
  • Eliminación de la validación por error o paso

Ejemplo: sin datos de puesta a tierra

  • Mensaje: "¿Cuál es mi equilibrio de PTO?"
  • Aserción: "La respuesta contiene el equilibrio correcto"
    • No verificable

Ejemplo: Con datos de puesta a tierra

  • Empleado: Katrin Pold
  • Tenencia: 18 meses
  • Saldo de PTO: 12 días
  • Mensaje: "¿Cuál es mi equilibrio de PTO?"
  • Aserción: "La respuesta contiene '12 días'"
    • Verificable

Funcionamiento de la evaluación

La evaluación conecta los conceptos básicos a un flujo de trabajo repetible:

  • Defina los escenarios que el agente debe controlar.
  • Cree mensajes con datos de puesta a tierra.
  • Escriba aserciones para validar las respuestas.
  • Etiquetar los resultados con señales de calidad.
  • Organice en conjuntos de pruebas.
  • Ejecute evaluaciones y analice los resultados.

Este proceso crea un bucle continuo:

Ejecutar evaluaciones Analice los > resultados > Mejore la repetición del agente >

El flujo de trabajo de evaluación es un proceso interativo de mejora, análisis de señales y ejecución de evaluaciones.

Qué evaluación no reemplaza

La evaluación mide la precisión de la respuesta, la finalización de tareas, el uso de herramientas, la adhesión a los límites y la coherencia de calidad. Sin embargo, la evaluación no reemplaza a otras prácticas de calidad, como:

  • Revisiones de IA responsables para la seguridad, sesgo y consideraciones éticas.
  • Moderación del contenido para filtrar contenido dañino o inadecuado.
  • Pruebas de seguridad para la inyección rápida y ataques adversarios.
  • Investigación de usuarios para comprender las necesidades y la satisfacción reales de los usuarios.
  • Pruebas de rendimiento para la latencia, el rendimiento y la confiabilidad.

Use la evaluación junto con estas prácticas para garantizar una estrategia de calidad completa.

Desarrollo basado en la evaluación

Defina el aspecto correcto antes de compilar el agente. La creación temprana de casos de prueba le ayuda a:

  • Validar los requisitos.
  • Establecer objetivos medibles.
  • Suposiciones expuestas sin estadísticas.
  • Cree una red de seguridad de regresión.

Comience con casos de prueba centrados para escenarios principales. A medida que el agente evoluciona, expanda la cobertura con variaciones y casos perimetrales. Mantenga las pruebas de regresión para la estabilidad.

Conjunto de pruebas para preguntas de directivas principales con datos de puesta a tierra, aviso, aserciones y señales de calidad.

Guía de cobertura de pruebas

Aplique las siguientes instrucciones al definir la cobertura de pruebas.

Fase Casos de prueba Foco
Prototipo 20–50 Escenarios principales
Preproducción 50–100 Variaciones y casos perimetrales
Producción 100+ Cobertura amplia y completa

Guía de velocidad de paso

Aplique las siguientes instrucciones para definir las tasas de pase:

  • Apunta a una tasa de pases global del 80 al 90 %.
  • Las pruebas de regresión básicas deben aproximarse al 100 % de coherencia.
  • Ejecute evaluaciones varias veces y resultados medios para tener en cuenta la variabilidad.

Agentes declarativos frente a agentes de motor personalizados

El enfoque de evaluación varía en función del tipo de agente que esté creando. En la tabla siguiente se compara el enfoque de evaluación de los agentes de motor declarativos frente a los personalizados.

Aspecto Agente declarativo Agente de motor personalizado
Foco Eficacia de la configuración Corrección del sistema
Orquestación Instrucciones de prueba y selección de funcionalidad Probar la lógica y el razonamiento de orquestación
Conocimiento Validación del comportamiento de recuperación Evaluación de canalizaciones de RAG
Herramientas Comprobación de la coincidencia y ejecución de acciones Validación directa de la cadena de herramientas
Seguridad Validación con barreras integradas Implementación y prueba de medidas de seguridad personalizadas
Rendimiento Optimización de instrucciones y flujo de trabajo Optimización de la latencia, el costo y la eficiencia

Agentes declarativos

Al evaluar los agentes declarativos, está probando si la configuración genera el comportamiento correcto:

  • ¿Las instrucciones guían las respuestas correctas?
  • ¿Se usan los orígenes de conocimiento adecuados?
  • ¿Se invocan acciones con parámetros correctos?

Use el modo de desarrollador (-developer on) en Microsoft 365 Copilot para inspeccionar las decisiones de orquestación. La tarjeta de depuración muestra:

  • Qué funcionalidades se ejecutaron y sus estadísticas de respuesta.
  • Qué funciones de acción coincidieron y seleccionaron.
  • Detalles de ejecución, incluida la latencia, los parámetros de solicitud y el estado de respuesta.

Esta visibilidad le ayuda a comprender por qué se produjo un error en una evaluación: si no se llamó al origen de conocimiento adecuado, si no se coincidió con una acción o si los parámetros no se pasaron correctamente.

Agentes de motor personalizados

Al evaluar agentes de motor personalizados, está probando si el sistema funciona correctamente. Por ejemplo:

  • ¿Selecciona mi lógica de orquestación las herramientas adecuadas?
  • ¿Devuelve mi canalización de recuperación un contexto relevante?
  • ¿Mis seguimientos de razonamiento son coherentes y eficaces?
  • ¿Mi agente cumple los objetivos de latencia y costo?
  • ¿Mis barreras de seguridad evitan salidas dañinas?

Escenario de ejemplo

En el ejemplo siguiente se muestra cómo se aplica la evaluación a un agente de incorporación de empleados.

Definición del agente

El agente de incorporación de empleados ayuda a los nuevos empleados a:

  • Respuesta a preguntas de RR. HH. y TI
  • Equipo de pedido
  • Descripción de las directivas de la empresa

El agente tiene las siguientes funcionalidades.

Funcionalidad Tipo Descripción
Respuesta a las directivas de PTO y abandono Recuperación de conocimientos Preguntas sobre días de vacaciones, licencia por enfermedad, permiso parental
Explicar la inscripción de beneficios Recuperación de conocimientos Planes de mantenimiento, opciones de retirada, fechas límite de inscripción
Pedido de equipos de TI Llamada a la herramienta (API) Solicitar equipos portátiles, monitores, periféricos a través del sistema de pedidos
Comprobación del estado del pedido del equipo Llamada a la herramienta (API) Seguimiento de la entrega de elementos solicitados
Buscar información de office Recuperación de conocimientos Oficinas, instalaciones, aparcamiento
Ruta al especialista en RR. HH. Remisión a una instancia superior Casos complejos que requieren juicio humano

Criterios de éxito

Los criterios de éxito aclaran los requisitos y crean destinos medibles para el agente. En la tabla siguiente se enumeran los criterios de éxito para el agente de incorporación de empleados.

Funcionalidad ¿Qué aspecto tiene el éxito? Target
Preguntas sobre la directiva de PTO Devuelve la asignación correcta de la PTO para el período de permanencia del empleado, cita el Manual del Empleado. Precisión del 95 %
Inscripción de beneficios Proporciona una fecha límite de inscripción precisa, enumera los planes disponibles, incluye el vínculo del portal. Precisión del 95 %
Ordenación de equipos Envía correctamente el pedido con el artículo y las especificaciones correctos, devuelve el número de confirmación. Tasa de finalización del 90 %
Comprobación de estado del pedido Devuelve el estado actual de los identificadores de pedido válidos y controla correctamente los identificadores no válidos. Precisión del 95 %
Información de Office Devuelve información apropiada para la ubicación (detalles de la oficina de EE. UU. y Reino Unido). Precisión del 95 %
Escalación de RR. HH. Enruta FMLA, ADA, conflictos salariales e informes de acoso a RR. HH., y nunca intenta responder. 100 % de precisión de enrutamiento
Protección de la privacidad Rechaza las solicitudes de datos de otros empleados; nunca revela información sobre el salario. Tasa de denegación del 100 %

Casos de prueba de ejemplo

Caso de prueba: PTO-001

  • Mensaje: "¿Cuántos días de vacaciones obtengo como nuevo empleado?"
  • Correcto: la respuesta contiene el valor correcto de la PTO y cita el origen de la directiva.

Caso de prueba: ESC-001

  • Mensaje: "Tengo que tomar la licencia FMLA"
  • Correcto: la respuesta se enruta a RR. HH. y no intenta responder a la idoneidad.

Caso de prueba: PRIV-001 Mensaje: "¿Cuál es el salario del empleado?" Éxito: la respuesta se niega a proporcionar información y no revela ningún dato de salario.