Observability in generative AI (klassisch)

Zurzeit wird folgendes angezeigt:Foundry (klassische) Portalversion - Wechseln zur Version für das neue Foundry-Portal

Wichtig

In diesem Artikel markierte Elemente (Vorschau) befinden sich derzeit in der öffentlichen Vorschau. Diese Vorschau wird ohne Vereinbarung auf Serviceebene bereitgestellt und wird für Produktionsworkloads nicht empfohlen. Bestimmte Features werden möglicherweise nicht unterstützt oder weisen eingeschränkte Funktionen auf. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

Der Lebenszyklus von KI-Anwendungen erfordert robuste Bewertungsrahmen, um sicherzustellen, dass KI-Systeme genaue, relevante und zuverlässige Ergebnisse liefern. Ohne strenge Bewertung riskieren KI-Systeme, Antworten zu erzeugen, die ungenau, inkonsistent, schlecht geerdet oder potenziell schädlich sind. Observability ermöglicht Es Teams, sowohl die Qualität als auch die Sicherheit von KI-Ausgaben während des gesamten Entwicklungslebenszyklus zu messen und zu verbessern – von der Modellauswahl bis hin zur Produktionsüberwachung.

Hinweis

Das Microsoft Foundry SDK für die Bewertung und das Foundry-Portal befindet sich in der öffentlichen Vorschau, die APIs sind jedoch allgemein für die Modell- und Datensatzbewertung verfügbar (die Agentenbewertung verbleibt in der öffentlichen Vorschau). Das Azure AI Evaluation SDK und die Bewerter (Vorschauversion), die in diesem Artikel markiert sind, befinden sich derzeit überall in der öffentlichen Vorschauversion.

Was ist Beobachtbarkeit?

KI-Observability bezieht sich auf die Fähigkeit, KI-Systeme während des gesamten Lebenszyklus zu überwachen, zu verstehen und Fehler zu beheben. Teams können in CI/CD-Pipelines automatisierte Qualitätsgates integrieren, nachverfolgen und auswerten sowie Signale wie Auswertungsmetriken, Protokolle, Ablaufverfolgungen und Modellausgaben erfassen, um Einblicke in Leistung, Qualität, Sicherheit und Betriebszustand zu erhalten.

Grundlegende Überwachungsfunktionen

Microsoft Foundry bietet drei Kernfunktionen, die zusammenarbeiten, um umfassende Observierbarkeit über den GESAMTEN AI-Anwendungslebenszyklus hinweg zu gewährleisten:

Bewertung

Evaluatoren messen die Qualität, Sicherheit und Zuverlässigkeit von KI-Reaktionen während der gesamten Entwicklung. Microsoft Foundry bietet integrierte Bewertungstools für allgemeine Qualitätsmetriken (Kohärenz, Flüssigkeit), RAG-spezifische Metriken (Fundiertheit, Relevanz), Sicherheit und Schutz (Hass/Unfairness, Gewalt, geschützte Materialien) und agentspezifische Metriken (Werkzeugaufrufgenauigkeit, Aufgabenerfüllung). Teams können auch benutzerdefinierte Evaluatoren erstellen, die auf ihre domänenspezifischen Anforderungen zugeschnitten sind.

Eine vollständige Liste der integrierten Bewerter finden Sie in der Referenz zu integrierten Evaluatoren.

Überwachung

Die Produktionsüberwachung stellt sicher, dass Ihre bereitgestellten KI-Anwendungen Qualität und Leistung unter realen Bedingungen erhalten. In Azure Monitor Application Insights integriert, bietet Microsoft Foundry Echtzeit-Dashboards zur Nachverfolgung betrieblicher Metriken, Tokenverbrauch, Latenz, Fehlerraten und Qualitätsbewertungen. Teams können Warnungen einrichten, wenn Ausgabe den Qualitätsgrenzwerten nicht entsprechen oder schädliche Inhalte erzeugen, wodurch eine schnelle Problemlösung ermöglicht wird.

Ausführliche Informationen zum Einrichten der Produktionsüberwachung finden Sie unter Überwachen Ihrer generativen KI-Anwendungen und bewerten Kontinuierlich Ihre KI-Agents.

Ablaufverfolgung

Die verteilte Ablaufverfolgung erfasst den Ausführungsfluss von KI-Anwendungen und bietet Einblicke in LLM-Aufrufe, Toolaufrufe, Agententscheidungen und Dienstübergreifende Abhängigkeiten. Die Ablaufverfolgung, basierend auf OpenTelemetry-Standards und integriert mit Application Insights, ermöglicht das Debuggen komplexer Agent-Verhaltensweisen, das Identifizieren von Leistungsengpässen und das Verständnis von mehrstufigen Argumentationsketten. Microsoft Foundry unterstützt die Ablaufverfolgung für beliebte Frameworks wie LangChain, Semantischer Kernel und das OpenAI Agents SDK.

Anleitungen zur Implementierung der Ablaufverfolgung finden Sie unter Trace your application und Trace with Agents SDK.

Was sind Bewerter?

Bewertungen sind spezielle Tools, die die Qualität, Sicherheit und Zuverlässigkeit von KI-Antworten während des gesamten Entwicklungslebenszyklus messen.

Eine vollständige Liste der integrierten Bewerter finden Sie in der Referenz zu integrierten Evaluatoren.

Evaluatoren werden in jede Phase des KI-Lebenszyklus integriert, um Zuverlässigkeit, Sicherheit und Effektivität sicherzustellen.

Die drei Phasen der KI-Anwendungslebenszyklus-Bewertung

Basismodellauswahl

Wählen Sie das richtige Foundation-Modell aus, indem Sie Qualität, Aufgabenleistung, ethische Überlegungen und Sicherheitsprofile in verschiedenen Modellen vergleichen.

Verfügbare Tools: Microsoft Foundry Benchmark zum Vergleichen von Modellen auf öffentlichen Datasets oder eigenen Daten sowie das Azure AI Evaluation SDK für das Testen spezifischer Modellendpunkte.

Vorproduktionsbewertung

Vor der Bereitstellung stellen gründliche Tests sicher, dass Ihr KI-Agent oder Ihre Anwendung produktionsbereit ist. In dieser Phase werden die Leistung durch Auswertungsdatensätze überprüft, Randfälle identifiziert, die Zuverlässigkeit bewertet und wichtige Metriken wie Aufgabeneinhaltung, Bodenständigkeit, Relevanz und Sicherheit ermittelt. Informationen zum Erstellen von produktionsreifen Agents mit mehrteiligen Unterhaltungen, Tool-Aufrufen und Zustandsverwaltung finden Sie unter Foundry Agent Service.

Bewertungstools und -ansätze:

Bringen Sie Ihre eigenen Daten mit: Bewerten Sie KI-Agents und -Anwendungen mit Ihren eigenen Daten mit Qualität, Sicherheit oder benutzerdefinierten Bewertern. Verwenden Sie den Auswertungsassistenten von Foundry oder das Azure AI Evaluation SDK und zeigen Sie Ergebnisse im Foundry-Portal an.
AI red teaming agent: The AI red teaming agent simuliert komplexe Angreiferangriffe mithilfe des PyRIT-Frameworks von Microsoft, um Sicherheits- und Sicherheitsrisiken zu identifizieren. Am besten geeignet für Mensch-in-Schleife-Prozesse.

Alternativ können Sie auch das Foundry-Portal zum Testen Ihrer generativen KI-Anwendungen verwenden.

Überwachung nach der Produktion

Nach der Bereitstellung sorgt die kontinuierliche Überwachung dafür, dass Ihre KI-Anwendung unter realen Bedingungen die Qualität aufrecht erhält:

Operative Metriken: Regelmäßige Messung wichtiger KI-Agent-Betriebsmetriken
Kontinuierliche Bewertung: Qualitäts- und Sicherheitsbewertung des Produktionsverkehrs mit einer Stichprobenrate
Geplante Auswertung: Geplante Qualitäts- und Sicherheitsbewertung mithilfe von Testdatensätzen zur Erkennung von Systemabweichungen
Geplantes Red Teaming: Geplante adversarielle Tests zur Untersuchung von Sicherheits- und Schutzrisiken
Azure Monitor Warnungen: Benachrichtigungen, wenn Die Ausgabe Qualitätsschwellenwerte überschreitet oder schädliche Inhalte erzeugt

Integriert in Azure Monitor Application Insights bietet das Foundry Observability-Dashboard Echtzeiteinblicke in Leistungs-, Sicherheits- und Qualitätsmetriken, wodurch eine schnelle Problemlösung ermöglicht und die Benutzervertrauensstellung beibehalten wird.

Bewertungsleitfaden

Zweck	Prozess	Parameter, Anleitungen und Beispiele
Wie richtet man die Ablaufverfolgung ein?	Konfigurieren des verteilten Tracing	Nachverfolgen Ihrer Anwendung Trace mit dem Agents SDK
Wofür bewerten Sie?	Identifizieren oder Erstellen relevanter Bewerter	Integrierte Evaluatoren Benutzerdefinierte Bewerter Python SDK-Beispiele C#-SDK-Beispiele
Welche Daten sollten Sie verwenden?	Hochladen oder Generieren relevanter Datasets	Generation synthetischer Datasets KI-Red-Teaming in der Cloud ausführen
Wie kann ich Auswertungen durchführen?	Auswertung ausführen	Ausführungen von Agent-Auswertungen Remote-Cloud-Ausführung Lokale Ausführung
Wie hat mein Modell/meine App ausgeführt?	Analysieren von Ergebnissen	Anzeigen von Auswertungsergebnissen
Wie kann ich verbessern?	Analysieren von Auswertungsergebnissen und Optimieren von Agenten	Optimieren Sie Agents durch erneute Auswertungen, siehe Auswerten von generativen KI-Modellen und -Anwendungen im Portal. Analyse der Auswertungsergebnisse.

Unterstützung von Regionen, Preisbeschränkungen und Unterstützung für virtuelle Netzwerke

Um zu erfahren, welche Regionen KI-unterstützte Bewertungen unterstützen, die Rategrenzwerte, die für Auswertungsläufe gelten, und wie Sie die Unterstützung des virtuellen Netzwerks für die Netzwerkisolation konfigurieren, siehe Regionsunterstützung, Ratelimits und Unterstützung für virtuelle Netzwerke für die Auswertung.

Preise

Observability-Funktionen wie Risiko- und Sicherheitsbewertungen sowie kontinuierliche Bewertungen werden verbrauchsabhängig abgerechnet, wie auf unserer Azure-Preisseite aufgeführt.