Cacheantworten für API-Anforderungen für große Sprachmodelle (LLM)

GILT FÜR: Alle API Management-Ebenen

Die llm-semantic-cache-store Richtlinie speichert Antworten auf Api-Anforderungen zum Chatabschluss an einen konfigurierten externen Cache. Response Caching reduziert die Bandbreiten- und Verarbeitungsanforderungen, die der Backend-Sprachmodell-API auferlegt werden, und senkt die Latenz, die von API-Konsumenten wahrgenommen wird.

Hinweis

Diese Richtlinie muss über eine entsprechende Richtlinie für Abrufen zwischengespeicherter Antworten auf API-Anforderungen von Azure OpenAI abrufen verfügen.
Voraussetzungen und Schritte zum Aktivieren der semantischen Zwischenspeicherung finden Sie unter Aktivieren der semantischen Zwischenspeicherung für LLM-APIs in Azure API Management.
Da die semantische Zwischenspeicherung Antworten basierend auf ähnlichkeit (nicht exakter Übereinstimmung) zurückgibt, kann sie Antworten anzeigen, die falsch, veraltet oder unsicher für die aktuelle Anforderung sind. Bewerten Sie dieses Feature sorgfältig für Ihre Workload und umfassen Sicherheitsvorkehrungen.

Hinweis

Legen Sie die Elemente und untergeordneten Elemente einer Richtlinie in der Reihenfolge fest, die in der Richtlinienanweisung angegeben ist. Erfahren Sie mehr darüber, wie Sie API Management-Richtlinien festlegen oder bearbeiten.

Unterstützte Modell-APIs

Diese Richtlinie funktioniert mit LLM-APIs, die der API-Verwaltung hinzugefügt wurden, die einem der folgenden API-Schemas entsprechen:

OpenAI-Chatabschluss- oder Antwort-API
Anthropic Nachrichten-API (derzeit in API-Verwaltungsebenen v2 unterstützt)
Google Vertex AI API

Richtlinienanweisung

<llm-semantic-cache-store duration="seconds" cache-response="true | false" />

Attribute

Attribut	BESCHREIBUNG	Erforderlich	Standard
Dauer	Lebensdauer der zwischengespeicherten Einträge, angegeben in Sekunden. Richtlinienausdrücke sind zulässig.	Ja	–
Cacheantwort	Wird auf `true` festgelegt, um die aktuelle HTTP-Antwort zwischenzuspeichern. Wenn das Attribut weggelassen wird, werden nur HTTP-Antworten mit dem Statuscode `200 OK` zwischengespeichert. Richtlinienausdrücke sind zulässig.	No	`false`

Verwendung

Richtlinienabschnitte: outbound
Richtlinienbereiche: global, product, API, operation
Gateways: klassisch, v2, Verbrauch, selbst gehostet

Hinweise zur Verwendung

Diese Richtlinie kann nur einmal in einem Richtlinienabschnitt verwendet werden.
Wenn das Cache-Lookup fehlschlägt, löst der API-Aufruf, der den cachebezogenen Vorgang verwendet, keinen Fehler aus, und der Cachevorgang wird erfolgreich abgeschlossen.
Es wird empfohlen, eine Richtlinie für Die Rate-Limit -Richtlinie (oder eine Richtlinie mit einem Satzgrenzwert nach Schlüsseln ) unmittelbar nach jeder Cachesuche zu konfigurieren. Dadurch wird verhindert, dass Ihr Back-End-Dienst überlastet wird, wenn der Cache nicht verfügbar ist.

Beispiele

Beispiel mit entsprechender Richtlinie „llm-semantic-cache-lookup“

Das folgende Beispiel zeigt, wie Sie die llm-semantic-cache-lookup Richtlinie zusammen mit der llm-semantic-cache-store Richtlinie verwenden, um semantisch ähnliche zwischengespeicherte Antworten mit einem Schwellenwert für die Ähnlichkeitsbewertung von 0,05 abzurufen. Zwischengespeicherte Werte werden durch die Abonnement-ID des Aufrufers partitioniert.

Hinweis

Fügen Sie nach der Cache-Suche eine Rate-Limit-Policy (oder Rate-Limit-by-Key-Policy ) hinzu, um die Anzahl der Anrufe zu begrenzen und Überlastung des Backend-Services zu vermeiden, falls der Cache nicht verfügbar ist.

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Weitere Informationen zum Arbeiten mit Richtlinien finden Sie hier:

Tutorial: Transformieren und Schützen Ihrer API
Unter Richtlinien für die API-Verwaltung finden Sie eine komplette Liste der Richtlinienanweisungen und der zugehörigen Einstellungen.
Richtlinienausdrücke
Festlegen oder Bearbeiten von Richtlinien
Wiederverwenden von Richtlinienkonfigurationen
Repository für Richtliniencodeausschnitte
Policy-Beispiel-Repository
Azure API Management-Richtlinientoolkit
Anfordern von Copilot-Unterstützung zum Erstellen, Erläutern und Problembehandlung von Richtlinien

Feedback

War diese Seite hilfreich?

Last updated on 2026-06-04

Cacheantworten für API-Anforderungen für große Sprachmodelle (LLM)

Unterstützte Modell-APIs

Richtlinienanweisung

Attribute

Verwendung

Hinweise zur Verwendung

Beispiele

Beispiel mit entsprechender Richtlinie „llm-semantic-cache-lookup“

Verwandte Richtlinien

Zugehöriger Inhalt

Feedback

Zusätzliche Ressourcen