Aktivieren der Prioritätsverarbeitung für Microsoft Foundry-Modelle

Die Prioritätsverarbeitung bietet eine geringe Latenzleistung mit der Flexibilität von Pay-as-you-go. In diesem Artikel aktivieren Sie die Prioritätsverarbeitung für eine Modellbereitstellung, überprüfen, welche Dienstebene Ihre Anforderungen verarbeitet hat, und überwachen die zugehörigen Kosten.

Voraussetzungen

  • Ein Azure-Abonnement – Create one for free.
  • Ein Microsoft Foundry-Projekt mit einem Modell des Bereitstellungstyps GlobalStandard oder DataZoneStandard wurde bereitgestellt.
  • Modellversionen 2025-12-01 oder höher.

Wichtige Anwendungsfälle

  • Konsistente, niedrige Latenz für reaktionsfähige Benutzeroberflächen.
  • Pay-as-you-go Einfachheit ohne langfristige Verpflichtungen.
  • Geschäftsstunden- oder burst-förmiger Datenverkehr, der von skalierten und kosteneffizienten Leistungen profitiert. Optionalerweise können Sie die Prioritätsverarbeitung mit bereitgestellten Durchsatzeinheiten (PTU) kombinieren, um die Kapazität im Dauerbetrieb aufrechtzuerhalten und die Kosten zu optimieren.

Ziel-Latenz

Modell Latenzzielwert2
gpt-5.4, 2026-03-051 99% > 50 Token pro Sekunde
gpt-5.2, 2025-12-11 99% > 50 Token pro Sekunde
gpt-5.1, 2025-11-13 99% > 50 Token pro Sekunde
gpt-4.1, 2025-04-141 99% > 80 Token pro Sekunde

1 Lange Kontextanforderungen (d. h. Anforderungen, die mit mehr als 128k-Eingabeaufforderungstoken geschätzt werden) werden auf die Standardverarbeitung herabgestuft, und Sie werden mit dem Standardebenensatz belastet.

2 Berechnet als p50-Anforderungslatenz pro 5 Minute.

Prioritätsverarbeitungsverfügbarkeit nach Bereitstellungstyp

Die Prioritätsverarbeitung kann in globalen Standardbereitstellungen oder Datenzonenstandardbereitstellungen (USA) aktiviert werden. Informationen zu den Preisen finden Sie unter the Azure OpenAI pricing page.

Globale Standardmodellverfügbarkeit

Region gpt-5.5, 2026-04-24 gpt-5.4-mini, 2026-03-17 gpt-5.4, 2026-03-05 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-4.1, 2025-04-14
australiaeast -
brasiliensouth -
kanadacentral -
canadaeast -
centralus -
eastus -
Eastus2 -
francecentral -
Deutschland Westzentral -
Italien-Nord -
Japaneast -
koreacentral -
Northcentralus -
norwayeast -
Polenzentral
südafricanorth -
southcentralus
Südostasien -
Südindien -
spaniencentral -
schwedencentral
schweiznorth -
Westschweiz -
uaenorth -
uksouth -
Westeuropa -
Westus -
westus3 -

Aktivieren der Prioritätsverarbeitung auf Bereitstellungsebene

Sie können die Prioritätsverarbeitung auf Bereitstellungsebene und (optional) auf Anforderungsebene aktivieren.

Hinweis

Die Prioritätsverarbeitung kann in globalen Standard- oder Datenzonenstandardbereitstellungen (USA) aktiviert werden. Die Prioritätsverarbeitung verwendet dasselbe Kontingent wie die Standardverarbeitung.

Aktivieren Sie im Portal Microsoft Foundry auf der Seite mit den Bereitstellungsdetails den Schieberegler für Priority Processing bei der Erstellung der Bereitstellung oder aktualisieren Sie die Einstellung eines bereitgestellten Modells durch Bearbeitung der Bereitstellungsdetails.

Screenshot, der zeigt, wie die Prioritätsverarbeitung während der Modellbereitstellung im Foundry-Portal aktiviert wird.

Hinweis

Wenn Sie code verwenden möchten, um die Prioritätsverarbeitung auf Bereitstellungsebene zu aktivieren, können Sie dies über die REST-API für die Bereitstellung tun, indem Sie das service_tier Attribut wie folgt festlegen: "properties" : {"service_tier" : "priority"} Zulässige Werte für das service_tier Attribut sind default und priority. default impliziert die Standardverarbeitung, während priority die Prioritätsverarbeitung ermöglicht.

Sobald eine Modellbereitstellung für die Verwendung der Prioritätsverarbeitung konfiguriert ist, können Sie mit dem Senden von Anforderungen an das Modell beginnen.

Anzeigen von Nutzungsmetriken

Sie können das Nutzungsmaß für Ihre Ressource im Abschnitt Azure Monitor im Azure-Portal anzeigen.

Um das Volumen der Anfragen zu sehen, die durch Standard- gegenüber Prioritätsverarbeitung bearbeitet werden, nach der Dienstestufe (Standard oder Priorität) im ursprünglichen Antrag aufgeteilt:

  1. Melden Sie sich bei https://portal.azure.com.
  2. Wechseln Sie zu Ihrer Azure OpenAI-Ressource, und wählen Sie im linken Navigationsbereich die Option Metrics aus.
  3. Fügen Sie auf der Metrikseite die Azure OpenAI-AnforderungenMetrik hinzu. Sie können auch andere Metriken wie Azure OpenAI-Latenz, Azure OpenAI-Verwendung und andere auswählen.
  4. Wählen Sie "Filter hinzufügen" aus, um die Standardbereitstellung auszuwählen, für die Prioritätsverarbeitungsanforderungen verarbeitet wurden.
  5. Wählen Sie "Aufteilen anwenden" aus, um die Werte nach ServiceTierRequest und ServiceTierResponse aufzuteilen.

Screenshot der Prioritätsverarbeitungsauslastung auf der Metrikseite der Ressource im Azure portal.

Weitere Informationen zur Überwachung Ihrer Bereitstellungen finden Sie unter Monitor Azure OpenAI.

Überwachen von Kosten

Sie können eine Aufschlüsselung der Kosten für Prioritäts- und Standardanforderungen auf der Kostenanalyseseite des Azure Portals anzeigen, indem Sie wie folgt nach Bereitstellungsnamen und Abrechnungstags filtern:

  1. Wechseln Sie zur Kostenanalyseseite im portal Azure.
  2. (Optional) Filtern nach Ressource.
  3. Um nach dem Bereitstellungsnamen zu filtern: Fügen Sie einen Filter für die Abrechnung Tag hinzu>, wählen Sie deployment als Wert, und wählen Sie dann Ihren Bereitstellungsnamen.

Screenshot der Prioritätsverarbeitungsauslastung auf der Kostenanalyseseite der Ressource im Azure portal.

Informationen zur Preisgestaltung für die Prioritätsverarbeitung finden Sie in der Azure OpenAI Service Preisübersicht.

Aktivieren der Prioritätsverarbeitung auf Anforderungsebene

Die Aktivierung der Prioritätsverarbeitung auf Anforderungsebene ist optional. Sowohl die API für Chatabschlusse als auch die Antwort-API verfügen über ein optionales Attribut service_tier , das den Verarbeitungstyp angibt, der beim Verarbeiten einer Anforderung verwendet werden soll. Das folgende Beispiel zeigt, wie service_tier auf priority in einer Anfragenanforderung festgelegt wird.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Verwenden Sie das service_tier Attribut, um die Einstellung auf Bereitstellungsebene außer Kraft zu setzen. service_tier kann die Werte auto, default und priority.

  • Wenn Sie das Attribut nicht festlegen, wird es standardmäßig auf auto.

  • service_tier = auto bedeutet, dass die Anforderung die in der Bereitstellung konfigurierte Dienstebene verwendet.

  • service_tier = default bedeutet, dass die Anforderung die Standardpreise und -leistung für das ausgewählte Modell verwendet.

  • service_tier = priority bedeutet, dass die Anforderung die Dienstebene für die Prioritätsverarbeitung verwendet.

In der folgenden Tabelle wird zusammengefasst, für welche Dienstebene Ihre Anforderungen basierend auf den Einstellungen service_tierauf Bereitstellungsebene und Anforderungsebene verarbeitet werden.

Einstellung auf Einsatzebene anforderungsspezifische Einstellung Von der Dienstebene verarbeitete Anforderung
Standard Automatisch, Standard Standard
Standard Priorität Prioritätsverarbeitung
Priorität Auto, Priorität Prioritätsverarbeitung
Priorität Standard Standard

Einschränkungen

  • Der Dienst unterstützt derzeit keine regionalen Standardbereitstellungen und EU-Datazone-Standardbereitstellungen.

  • Der Dienst leitet einige Prioritätsanforderungen möglicherweise während dieser Szenarien erneut an die Standardverarbeitung* weiter:

    • Wenn Ihre Prioritätsverarbeitungstoken pro Minute schnell erhöht werden, kann dies zu einem Überschreiten der Rampenratenbegrenzungen führen. Derzeit wird das Rampenratenlimit als Erhöhung des Datenverkehrs um mehr als 50% Token pro Minute in weniger als 15 Minuten definiert.
    • Während Zeiten mit Spitzenanforderungen zur Prioritätsverarbeitung.
    • Lange Kontextanforderungen, die an bestimmte Modelle gesendet werden, die in der Zieltabelle "Latenz" aufgeführt sind.

    Tipp

    Wenn Sie routinemäßig auf Rampenratenlimits stoßen, sollten Sie PTU anstelle oder zusätzlich zur Prioritätsverarbeitung kaufen.

    * Der Dienst berechnet die von der Standarddienstebene verarbeiteten Anfragen zu Standardtarifen. Anforderungen, die von der Standardmäßigen Dienstebene verarbeitet werden, sind in der Antwort enthalten service_tier = default , während Anforderungen, die von der Prioritätsverarbeitungsstufe verarbeitet werden, in die Antwort einbezogen werden service_tier = priority .

Problembehandlung

Angelegenheit Ursache Auflösung
Anforderungen, die auf die Standardebene herabgestuft wurden Eine der folgenden Situationen:
– Der Datenverkehr erhöhte sich in weniger als 15 Minuten um mehr als 50 % Token pro Minute und erreichte das Rampenratenlimit.
– Anforderungen, die während Zeiträumen von Spitzenanforderungen an die Prioritätsverarbeitung gesendet wurden.
– Lange Kontextanforderungen, die an bestimmte Modelle gesendet werden, die in der Zieltabelle "Latenz" aufgeführt sind.
– Erhöhen Sie den Datenverkehr schrittweise, sollten Sie Rampenratenbeschränkungen festgestellt haben.
- Bitte erwägen Sie den Erwerb von PTU für eine stabile Kapazität.