Referenz zu integrierten Evaluatoren (klassisch)

Zurzeit wird folgendes angezeigt:Foundry (klassische) Portalversion - Wechseln zur Version für das neue Foundry-Portal

Wichtig

In diesem Artikel markierte Elemente (Vorschau) befinden sich derzeit in der öffentlichen Vorschau. Diese Vorschau wird ohne Vereinbarung auf Serviceebene bereitgestellt und wird für Produktionsworkloads nicht empfohlen. Bestimmte Features werden möglicherweise nicht unterstützt oder weisen eingeschränkte Funktionen auf. Weitere Informationen finden Sie unter Supplementale Nutzungsbedingungen für Microsoft Azure Previews.

Microsoft Foundry bietet einen umfassenden Satz integrierter Bewerter, um die Qualität, Sicherheit und Zuverlässigkeit von KI-Antworten während des gesamten Entwicklungslebenszyklus zu bewerten. In dieser Referenz werden alle verfügbaren Bewerter, ihre Zwecke, die erforderlichen Eingaben und Anleitungen zum Auswählen der richtigen Bewertung für Ihren Anwendungsfall beschrieben. Sie können auch benutzerdefinierte Bewerter erstellen, die auf Ihre spezifischen Bewertungskriterien zugeschnitten sind.

Hinweis

Das Microsoft Foundry SDK für die Bewertung und das Foundry-Portal befindet sich in der öffentlichen Vorschau, die APIs sind jedoch allgemein für die Modell- und Datensatzbewertung verfügbar (die Agentenbewertung verbleibt in der öffentlichen Vorschau). Das Azure AI Evaluation SDK und die Bewerter (Vorschauversion), die in diesem Artikel markiert sind, befinden sich derzeit überall in der öffentlichen Vorschauversion.

Allzweck-Auswerter

Auswerter	Zweck
Kohärenz	Misst die logische Konsistenz und die Flüssigkeit der Antworten.
Geläufigkeit	Misst die Qualität und Lesbarkeit natürlicher Sprache.

Weitere Informationen finden Sie unter "Allgemeine Bewertungen".

Textbezogene Ähnlichkeitsbewertungssysteme

Auswerter	Zweck
Ähnlichkeit	KI-unterstützte Textgleichheitsmessung.
F1-Bewertung	Harmonisches Mittel der Präzision und der Wiedererkennung in Token-Überschneidungen zwischen Antwort und Grundwahrheit.
BLEU	Die „Bilingual Evaluation Understudy“-Bewertung (Zweisprachige Bewertungsstudie) für die Übersetzungsqualität misst Überschneidungen in n-Grammen zwischen Antwort und Grundwahrheit.
GLEU	Die Google-BLEU-Variante für die Bewertung auf Satzebene misst Überschneidungen in n-Grammen zwischen der Antwort und der Grundwahrheit.
ROUGE	Die „Recall-Oriented Understudy for Gisting Evaluation“ (Erinnerungsorientierte Studie zur Bewertung von Gisting) misst Überschneidungen in n-Grammen zwischen Antwort und Grundwahrheit.
METEOR	Die „Metric for Evaluation of Translation with Explicit Ordering“ (Metrik zur Bewertung von Übersetzungen mit expliziter Ordnung) misst Überschneidungen in n-Grammen zwischen der Antwort und der Grundwahrheit.

Weitere Informationen finden Sie unter "Textbezogene Ähnlichkeitsbewertungen".

RAG-Gutachter

Auswerter	Zweck
Abrufen	Wie effektiv das System relevante Informationen abruft, wird gemessen.
Dokumentabruf	Misst die Genauigkeit der Abfrageergebnisse unter Berücksichtigung der Grundwahrheit.
Fundiertheit	Misst, wie konsistent die Antwort in Bezug auf den abgerufenen Kontext ist.
Geerdetheit Pro (Vorschau)	Misst, ob die Antwort im Hinblick auf den abgerufenen Kontext konsistent ist.
Relevanz	Misst, wie relevant die Antwort in Bezug auf die Anfrage ist.
Antwort-Vollständigkeit	Misst, inwieweit die Antwort in Bezug auf die Grundwahrheit vollständig ist (es fehlen keine wichtigen Informationen).

Weitere Informationen finden Sie unter "Retrieval-Augmented Generation (RAG)-Evaluatoren".

Risiko- und Sicherheitsprüfer

Auswerter	Zweck
Hass und Unfairness	Identifiziert voreingenommene, diskriminierende oder hassfähige Inhalte.
Sexuelle	Identifiziert unangemessene sexuelle Inhalte.
Gewalt	Erkennt gewaltsame Inhalte oder Aufregung.
Selbstverletzung	Erkennt Inhalte, die Selbstschäden fördern oder beschreiben.
Inhaltssicherheit	Umfassende Bewertung verschiedener Sicherheitsbedenken.
Geschützte Materialien	Erkennt die nicht autorisierte Verwendung von urheberrechtlich geschütztem Inhalt.
Sicherheitsanfälligkeit in Code	Identifiziert Sicherheitsprobleme im generierten Code.
Nicht geerdete Attribute	Erkennt fabricierte oder halluzinierte Informationen, die von Benutzerinteraktionen abgeleitet werden.

Weitere Informationen finden Sie unter Risiko- und Sicherheitsbewertungen.

Agentenbewerter

Auswerter	Zweck
Intent-Auflösung (Vorschau)	Misst, wie genau der Agent die Benutzerabsichten erkennt und berücksichtigt.
Aufgabentreue (Vorschau)	Misst, wie gut der Agent identifizierte Aufgaben zu Ende führt.
Toolaufrufgenauigkeit (Vorschau)	Misst, wie gut der Agent die richtigen Tools auswählt und aufruft.

Weitere Informationen finden Sie unter Agent-Bewertungen.

Azure OpenAI-Bewertungstools

Auswerter	Zweck
Modellbezeichner	Klassifiziert Inhalte mithilfe von benutzerdefinierten Richtlinien und Bezeichnungen.
Zeichenfolgenüberprüfung	Führt flexible Textüberprüfungen und Musterabgleiche durch.
Textähnlichkeit	Wertet die Textqualität aus oder bestimmt die semantische Nähe.
Modellbewertung	Generiert numerische Bewertungen (angepasster Bereich) für Inhalte basierend auf benutzerdefinierten Richtlinien.

Weitere Informationen finden Sie unter Azure OpenAI Graders.

Benutzerdefinierte Bewerter

Zusätzlich zu integrierten Bewertern können Sie benutzerdefinierte Bewerter erstellen, die auf Ihre spezifischen Bewertungskriterien zugeschnitten sind. Mit benutzerdefinierten Bewertern können Sie eindeutige Bewertungslogik, Validierungsregeln und Qualitätsmetriken definieren, die ihren geschäftlichen Anforderungen und anwendungsspezifischen Anforderungen entsprechen.

Weitere Informationen finden Sie unter "Benutzerdefinierte Auswertungen".

Kombinieren von Bewertern

Kombinieren Sie für eine umfassende Qualitätsbewertung mehrere Bewertungen:

RAG-Anwendungen: Abruf + Verankerung + Relevanz + Inhaltsicherheit
Agent-Anwendungen: Werkzeuganwendungsgenauigkeit + Aufgabeneinhaltung + Absichtserkennung + Inhaltssicherheit
Übersetzungsanwendungen: BLEU + METEOR + Fluency + Coherence
Alle Anwendungen: Fügen Sie Risiko- und Sicherheitsprüfer hinzu (Hass und Ungerechtigkeit; Sexuelle Inhalte; Gewalt; Selbstverletzung) für verantwortungsvolle KI-Praktiken

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-19