Auswerten und Überwachen von KI-Agenten

MLflow bietet umfassende Agent-Auswertungs- und LLM-Auswertungsfunktionen, die Ihnen dabei helfen, die Qualität Ihrer KI-Anwendungen zu messen, zu verbessern und aufrechtzuerhalten. MLflow unterstützt den gesamten Entwicklungslebenszyklus vom Testen über die Produktionsüberwachung für LLMs, Agents, RAG-Systeme oder andere GenAI-Anwendungen.

Die Auswertung von KI-Agents und LLMs ist komplexer als herkömmliche ML-Modellauswertung. Diese Anwendungen umfassen mehrere Komponenten, mehrstufige Unterhaltungen und nuancierte Qualitätskriterien. Sowohl qualitative als auch quantitative Metriken erfordern spezielle Auswertungsansätze, um die Leistung genau zu bewerten.

Die Auswertungs- und Überwachungskomponente von MLflow 3 soll Ihnen dabei helfen, die Qualität Ihrer GenAI-App iterativ zu optimieren. Auswertung und Überwachung bauen auf der MLflow-Ablaufverfolgung auf, die echtzeitbasierte Ablaufverfolgungsprotokollierung in den Entwicklungs-, Test- und Produktionsphasen bereitstellt. Ablaufverfolgungen können während der Entwicklung mit integrierten oder benutzerdefinierten LLM-Bewertungsfunktionen und -Scorern ausgewertet werden, und das Produktionsmonitoring kann dieselben Bewertungsfunktionen und Scorer wiederverwenden, um eine konsistente Bewertung während des gesamten Anwendungslebenszyklus sicherzustellen. Domänenexperten können Feedback mithilfe einer integrierten Prüf-App zum Sammeln von menschlichem Feedback bereitstellen und Auswertungsdaten zur weiteren Iteration erstellen.

Das Diagramm zeigt diesen iterativen Workflow auf hoher Ebene.

Übersichtsdiagramm zur Auswertung und Überwachung von MLflow 3

Merkmal	Description
10-minütige Demo: Bewerten einer GenAI-App	Führen Sie ein schnelles Demonotizbuch aus, in dem die MLflow-Auswertung mithilfe einer einfachen GenAI-Anwendung eingeführt wird.
Lernprogramm: Bewerten und Verbessern einer GenAI-Anwendung	Durchlaufen Sie ein Lernprogramm des vollständigen Auswertungsworkflows mithilfe einer simulierten RAG-Anwendung. Verwenden Sie Auswertungsdatensätze und LLM-Richter, um Qualität zu bewerten, Probleme zu identifizieren und Ihre App iterativ zu verbessern.
Scorer und LLM-Richter	Definieren Sie Qualitätsmetriken für Ihre App mit integrierten LLM-Richtern, benutzerdefinierten LLM-Richtern und benutzerdefinierten Scorern. Verwenden Sie die gleichen Metriken sowohl für die Entwicklung als auch für die Produktion.
Bewerten während der Entwicklung	Testen Sie Ihre GenAI-Anwendung mit Evaluierungsdatensätzen, Scorern und LLM-Beurteilern. Vergleichen Sie App-Versionen, verfolgen Sie Verbesserungen und teilen Sie Ergebnisse.
Gespräche auswerten	Bewerten Sie die Qualität von Multi-Turn-Unterhaltungen mit spezialisierten Bewertungstools für die Vollständigkeit der Unterhaltungen, Benutzerfrustration und Dialogkohärenz.
Gesprächssimulation	Generieren Sie synthetische Multi-Turn-Unterhaltungen, um Konversations-KI-Agenten mit verschiedenen Szenarien und Benutzerverhalten zu testen.
Überwachen von Apps in der Produktion (Beta)	Führen Sie Scorer und LLM-Richter automatisch auf Ihre GenAI-Produktionsanwendung aus, um die Qualität kontinuierlich zu überwachen.
Sammeln von menschlichem Feedback	Verwenden Sie die Rezensions-App, um Expertenfeedback zu sammeln und Auswertungsdatensätze zu erstellen.
Genie-Code für die Überwachbarkeit und Bewertung von Agenten	Verwenden Sie natürliche Sprache, um Bewertungsergebnisse zu überprüfen, Evaluierungsdatensätze zu inspizieren, geplante Scorer zu prüfen und Hilfe beim Einrichten von `mlflow.genai.evaluate()` mit den richtigen Scorern zu erhalten.

Hinweis

Die Agentenbewertung ist in das verwaltete MLflow 3 integriert. Die Agent Evaluation SDK-Methoden sind jetzt mit dem mlflow[databricks]>=3.1 SDK verfügbar. Informieren Sie sich unter Migrieren von der Agent Evaluation zu MLflow 3, um Ihren MLflow 2 Agent Evaluation Code auf MLflow 3 zu aktualisieren.

Feedback

War diese Seite hilfreich?

Last updated on 2026-03-15

Freigeben über

Auswerten und Überwachen von KI-Agenten

Feedback

Zusätzliche Ressourcen