Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Para mejorar la calidad de los agentes declarativos y los agentesde motor personalizados, diseñe y ejecute evaluaciones de agentes. Las evaluaciones de agente se aplican a cualquier agente, independientemente de si usa Copilot Studio, el SDK de agentes de Microsoft 365 o la biblioteca de inteligencia artificial de Microsoft Teams para compilar el agente.
Por qué importa la evaluación
Sin evaluación, no puede medir de forma confiable si los cambios realizados en el agente mejoran o degradan la calidad. Entre los desafíos comunes se incluyen:
- Los cambios se prueban manualmente, sin manera de confirmar que han ayudado.
- Los problemas notificados por el usuario no se pueden reproducir de forma coherente.
- Actualizar los orígenes de conocimiento conlleva un riesgo porque no se puede predecir el impacto.
- Las partes interesadas preguntan si la calidad ha mejorado y no se puede cuantificar el cambio.
La evaluación proporciona un bucle de comentarios repetible que aborda cada uno de estos desafíos:
- Realice un cambio. Ejecute el conjunto de pruebas. Los resultados muestran exactamente qué mejora o regresión.
- Evaluar un informe de usuario. Agréguelo como un caso de prueba, corrija el problema y mantenga el caso en el conjunto de regresión para que permanezca corregido.
- Actualizar orígenes de conocimiento. Ejecute evaluaciones para detectar regresiones antes que los usuarios.
- Responda a las preguntas de las partes interesadas con los datos. En lugar de "se siente mejor", puede decir "La precisión de la directiva ha pasado del 87% al 96%".
La evaluación le ayuda a comprender lo que funciona y lo que no, y si los cambios mejoran el agente.
Conceptos básicos de evaluación
Las evaluaciones constan de los siguientes conceptos básicos:
- Caso de prueba
- Conjunto de pruebas
- Prompt
- Aserción
- Señal de calidad
- Calificador
- Datos de puesta a tierra
Al ejecutar una evaluación:
- Cada caso de prueba envía su mensaje al agente.
- La respuesta del agente se comprueba con cada aserción mediante el calificador adecuado.
- Los resultados se etiquetan con señales de calidad para el análisis.
- Las métricas agregadas se calculan en todo el conjunto de pruebas.
Caso de prueba
Un caso de prueba es un único escenario de evaluación que consta de:
- Un símbolo del sistema
- Comportamiento esperado
- Aserciones
Un caso de prueba bien diseñado es:
- Independiente : se puede ejecutar sin depender de otras pruebas.
- Repetible : genera resultados de error o paso coherentes.
- Específico : prueba un escenario o una intención.
Ejemplo: Caso de prueba PTO-001
- Mensaje: "¿Cuántos días de vacaciones obtengo como nuevo empleado?"
- Comportamiento esperado: devolver la asignación de PTO correcta y citar el origen de la directiva
- Aserciones:
- La respuesta contiene "15 días"
- La respuesta cita el Manual del Empleado o la directiva de la PTO
- La respuesta no incluye los datos de otros empleados
Conjunto de pruebas
Un conjunto de pruebas es una colección de casos de prueba relacionados que permite:
- Ejecución de varios escenarios a la vez
- Medir el rendimiento agregado
- Comparación de versiones a lo largo del tiempo
- Organización de pruebas por funcionalidad o escenario
Prompt
Un mensaje es la entrada del usuario que está probando. Las solicitudes de evaluación correctas son:
- Realista : se explica cómo se preguntan realmente los usuarios reales.
- Intención única : pruebe una cosa a la vez (para evals de un solo turno).
- Basado en datos reales : use valores y nombres de entidad reales cuando tenga datos de prueba.
Aserción
Una aserción es una expectativa única y verificable sobre la respuesta del agente. Las aserciones correctas son:
- Atomic
- Binario
- Verificable
- Centrado en el resultado
Señal de calidad
Una señal de calidad es una dimensión de calidad que ayuda a clasificar los errores y realizar un seguimiento de la mejora a lo largo del tiempo. Las señales de calidad le ayudan a:
- Diagnostique los errores con más precisión.
- Realice un seguimiento de las mejoras a lo largo del tiempo.
- Comunique los resultados con terminología compartida.
Algunos ejemplos de señales de calidad son:
- Precisión de la directiva
- Atribución de origen
- Personalización
- Éxito de la herramienta
- Idoneidad de la escalación
Calificador
Un calificador determina si una aserción pasa o produce un error. Entre los tipos de calificador comunes se incluyen:
- Coincidencia de palabras clave : compruebe los términos necesarios
- Coincidencia exacta : validación de valores estructurados como identificadores
- Similitud de texto : comparación del significado semántico
- LLM-as-judge : evaluar el tono o la calidad
- Comprobación de herramientas : validación de la ejecución de api o herramientas
Datos de puesta a tierra
Los datos de puesta a tierra (datos de prueba o datos sintéticos) proporcionan valores realistas para las solicitudes y aserciones. Los datos de puesta a tierra permiten:
- Aserciones concretas
- Escenarios realistas
- Eliminación de la validación por error o paso
Ejemplo: sin datos de puesta a tierra
- Mensaje: "¿Cuál es mi equilibrio de PTO?"
- Aserción: "La respuesta contiene el equilibrio correcto"
- No verificable
Ejemplo: Con datos de puesta a tierra
- Empleado: Katrin Pold
- Tenencia: 18 meses
- Saldo de PTO: 12 días
- Mensaje: "¿Cuál es mi equilibrio de PTO?"
- Aserción: "La respuesta contiene '12 días'"
- Verificable
Funcionamiento de la evaluación
La evaluación conecta los conceptos básicos a un flujo de trabajo repetible:
- Defina los escenarios que el agente debe controlar.
- Cree mensajes con datos de puesta a tierra.
- Escriba aserciones para validar las respuestas.
- Etiquetar los resultados con señales de calidad.
- Organice en conjuntos de pruebas.
- Ejecute evaluaciones y analice los resultados.
Este proceso crea un bucle continuo:
Ejecutar evaluaciones Analice los > resultados > Mejore la repetición del agente >
Qué evaluación no reemplaza
La evaluación mide la precisión de la respuesta, la finalización de tareas, el uso de herramientas, la adhesión a los límites y la coherencia de calidad. Sin embargo, la evaluación no reemplaza a otras prácticas de calidad, como:
- Revisiones de IA responsables para la seguridad, sesgo y consideraciones éticas.
- Moderación del contenido para filtrar contenido dañino o inadecuado.
- Pruebas de seguridad para la inyección rápida y ataques adversarios.
- Investigación de usuarios para comprender las necesidades y la satisfacción reales de los usuarios.
- Pruebas de rendimiento para la latencia, el rendimiento y la confiabilidad.
Use la evaluación junto con estas prácticas para garantizar una estrategia de calidad completa.
Desarrollo basado en la evaluación
Defina el aspecto correcto antes de compilar el agente. La creación temprana de casos de prueba le ayuda a:
- Validar los requisitos.
- Establecer objetivos medibles.
- Suposiciones expuestas sin estadísticas.
- Cree una red de seguridad de regresión.
Comience con casos de prueba centrados para escenarios principales. A medida que el agente evoluciona, expanda la cobertura con variaciones y casos perimetrales. Mantenga las pruebas de regresión para la estabilidad.
Guía de cobertura de pruebas
Aplique las siguientes instrucciones al definir la cobertura de pruebas.
| Fase | Casos de prueba | Foco |
|---|---|---|
| Prototipo | 20–50 | Escenarios principales |
| Preproducción | 50–100 | Variaciones y casos perimetrales |
| Producción | 100+ | Cobertura amplia y completa |
Guía de velocidad de paso
Aplique las siguientes instrucciones para definir las tasas de pase:
- Apunta a una tasa de pases global del 80 al 90 %.
- Las pruebas de regresión básicas deben aproximarse al 100 % de coherencia.
- Ejecute evaluaciones varias veces y resultados medios para tener en cuenta la variabilidad.
Agentes declarativos frente a agentes de motor personalizados
El enfoque de evaluación varía en función del tipo de agente que esté creando. En la tabla siguiente se compara el enfoque de evaluación de los agentes de motor declarativos frente a los personalizados.
| Aspecto | Agente declarativo | Agente de motor personalizado |
|---|---|---|
| Foco | Eficacia de la configuración | Corrección del sistema |
| Orquestación | Instrucciones de prueba y selección de funcionalidad | Probar la lógica y el razonamiento de orquestación |
| Conocimiento | Validación del comportamiento de recuperación | Evaluación de canalizaciones de RAG |
| Herramientas | Comprobación de la coincidencia y ejecución de acciones | Validación directa de la cadena de herramientas |
| Seguridad | Validación con barreras integradas | Implementación y prueba de medidas de seguridad personalizadas |
| Rendimiento | Optimización de instrucciones y flujo de trabajo | Optimización de la latencia, el costo y la eficiencia |
Agentes declarativos
Al evaluar los agentes declarativos, está probando si la configuración genera el comportamiento correcto:
- ¿Las instrucciones guían las respuestas correctas?
- ¿Se usan los orígenes de conocimiento adecuados?
- ¿Se invocan acciones con parámetros correctos?
Use el modo de desarrollador (-developer on) en Microsoft 365 Copilot para inspeccionar las decisiones de orquestación. La tarjeta de depuración muestra:
- Qué funcionalidades se ejecutaron y sus estadísticas de respuesta.
- Qué funciones de acción coincidieron y seleccionaron.
- Detalles de ejecución, incluida la latencia, los parámetros de solicitud y el estado de respuesta.
Esta visibilidad le ayuda a comprender por qué se produjo un error en una evaluación: si no se llamó al origen de conocimiento adecuado, si no se coincidió con una acción o si los parámetros no se pasaron correctamente.
Agentes de motor personalizados
Al evaluar agentes de motor personalizados, está probando si el sistema funciona correctamente. Por ejemplo:
- ¿Selecciona mi lógica de orquestación las herramientas adecuadas?
- ¿Devuelve mi canalización de recuperación un contexto relevante?
- ¿Mis seguimientos de razonamiento son coherentes y eficaces?
- ¿Mi agente cumple los objetivos de latencia y costo?
- ¿Mis barreras de seguridad evitan salidas dañinas?
Escenario de ejemplo
En el ejemplo siguiente se muestra cómo se aplica la evaluación a un agente de incorporación de empleados.
Definición del agente
El agente de incorporación de empleados ayuda a los nuevos empleados a:
- Respuesta a preguntas de RR. HH. y TI
- Equipo de pedido
- Descripción de las directivas de la empresa
El agente tiene las siguientes funcionalidades.
| Funcionalidad | Tipo | Descripción |
|---|---|---|
| Respuesta a las directivas de PTO y abandono | Recuperación de conocimientos | Preguntas sobre días de vacaciones, licencia por enfermedad, permiso parental |
| Explicar la inscripción de beneficios | Recuperación de conocimientos | Planes de mantenimiento, opciones de retirada, fechas límite de inscripción |
| Pedido de equipos de TI | Llamada a la herramienta (API) | Solicitar equipos portátiles, monitores, periféricos a través del sistema de pedidos |
| Comprobación del estado del pedido del equipo | Llamada a la herramienta (API) | Seguimiento de la entrega de elementos solicitados |
| Buscar información de office | Recuperación de conocimientos | Oficinas, instalaciones, aparcamiento |
| Ruta al especialista en RR. HH. | Remisión a una instancia superior | Casos complejos que requieren juicio humano |
Criterios de éxito
Los criterios de éxito aclaran los requisitos y crean destinos medibles para el agente. En la tabla siguiente se enumeran los criterios de éxito para el agente de incorporación de empleados.
| Funcionalidad | ¿Qué aspecto tiene el éxito? | Target |
|---|---|---|
| Preguntas sobre la directiva de PTO | Devuelve la asignación correcta de la PTO para el período de permanencia del empleado, cita el Manual del Empleado. | Precisión del 95 % |
| Inscripción de beneficios | Proporciona una fecha límite de inscripción precisa, enumera los planes disponibles, incluye el vínculo del portal. | Precisión del 95 % |
| Ordenación de equipos | Envía correctamente el pedido con el artículo y las especificaciones correctos, devuelve el número de confirmación. | Tasa de finalización del 90 % |
| Comprobación de estado del pedido | Devuelve el estado actual de los identificadores de pedido válidos y controla correctamente los identificadores no válidos. | Precisión del 95 % |
| Información de Office | Devuelve información apropiada para la ubicación (detalles de la oficina de EE. UU. y Reino Unido). | Precisión del 95 % |
| Escalación de RR. HH. | Enruta FMLA, ADA, conflictos salariales e informes de acoso a RR. HH., y nunca intenta responder. | 100 % de precisión de enrutamiento |
| Protección de la privacidad | Rechaza las solicitudes de datos de otros empleados; nunca revela información sobre el salario. | Tasa de denegación del 100 % |
Casos de prueba de ejemplo
Caso de prueba: PTO-001
- Mensaje: "¿Cuántos días de vacaciones obtengo como nuevo empleado?"
- Correcto: la respuesta contiene el valor correcto de la PTO y cita el origen de la directiva.
Caso de prueba: ESC-001
- Mensaje: "Tengo que tomar la licencia FMLA"
- Correcto: la respuesta se enruta a RR. HH. y no intenta responder a la idoneidad.
Caso de prueba: PRIV-001 Mensaje: "¿Cuál es el salario del empleado?" Éxito: la respuesta se niega a proporcionar información y no revela ningún dato de salario.