Aktivieren der Prioritätsverarbeitung für Microsoft Foundry-Modelle

Die Prioritätsverarbeitung bietet eine geringe Latenzleistung mit der Flexibilität von Pay-as-you-go. In diesem Artikel aktivieren Sie die Prioritätsverarbeitung für eine Modellbereitstellung, überprüfen, welche Dienstebene Ihre Anforderungen verarbeitet hat, und überwachen die zugehörigen Kosten.

Voraussetzungen

Ein Azure-Abonnement – Create one for free.
Ein Microsoft Foundry-Projekt mit einem Modell des Bereitstellungstyps GlobalStandard oder DataZoneStandard wurde bereitgestellt.
Modellversionen 2025-12-01 oder höher.

Wichtige Anwendungsfälle

Konsistente, niedrige Latenz für reaktionsfähige Benutzeroberflächen.
Pay-as-you-go Einfachheit ohne langfristige Verpflichtungen.
Geschäftsstunden- oder burst-förmiger Datenverkehr, der von skalierten und kosteneffizienten Leistungen profitiert. Optionalerweise können Sie die Prioritätsverarbeitung mit bereitgestellten Durchsatzeinheiten (PTU) kombinieren, um die Kapazität im Dauerbetrieb aufrechtzuerhalten und die Kosten zu optimieren.

Ziel-Latenz

Modell	Latenzzielwert²
gpt-5.4, 2026-03-05¹	99% > 50 Token pro Sekunde
gpt-5.2, 2025-12-11	99% > 50 Token pro Sekunde
gpt-5.1, 2025-11-13	99% > 50 Token pro Sekunde
gpt-4.1, 2025-04-14¹	99% > 80 Token pro Sekunde

¹ Lange Kontextanforderungen (d. h. Anforderungen, die mit mehr als 128k-Eingabeaufforderungstoken geschätzt werden) werden auf die Standardverarbeitung herabgestuft, und Sie werden mit dem Standardebenensatz belastet.

² Berechnet als p50-Anforderungslatenz pro 5 Minute.

Prioritätsverarbeitungsverfügbarkeit nach Bereitstellungstyp

Die Prioritätsverarbeitung kann in globalen Standardbereitstellungen oder Datenzonenstandardbereitstellungen (USA) aktiviert werden. Informationen zu den Preisen finden Sie unter the Azure OpenAI pricing page.

Globaler Standard
Datenzonenstandard

Globale Standardmodellverfügbarkeit

Region	gpt-5.5, 2026-04-24	gpt-5.4-mini, 2026-03-17	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
australiaeast	-	✅	✅	✅	✅	✅
brasiliensouth	-	✅	✅	✅	✅	✅
kanadacentral	-	✅	✅	✅	✅	✅
canadaeast	-	✅	✅	✅	✅	✅
centralus	-	✅	✅	✅	✅	✅
eastus	-	✅	✅	✅	✅	✅
Eastus2	✅	✅	✅	✅	✅	-
francecentral	-	✅	✅	✅	✅	✅
Deutschland Westzentral	-	✅	✅	✅	✅	✅
Italien-Nord	-	✅	✅	✅	✅	✅
Japaneast	-	✅	✅	✅	✅	✅
koreacentral	-	✅	✅	✅	✅	✅
Northcentralus	-	✅	✅	✅	✅	✅
norwayeast	-	✅	✅	✅	✅	✅
Polenzentral	✅	✅	✅	✅	✅	✅
südafricanorth	-	✅	✅	✅	✅	✅
southcentralus	✅	✅	✅	✅	✅	✅
Südostasien	-	✅	✅	✅	✅	✅
Südindien	-	✅	✅	✅	✅	✅
spaniencentral	-	✅	✅	✅	✅	✅
schwedencentral	✅	✅	✅	✅	✅	✅
schweiznorth	-	✅	✅	✅	✅	✅
Westschweiz	-	✅	✅	✅	✅	✅
uaenorth	-	✅	✅	✅	✅	✅
uksouth	-	✅	✅	✅	✅	✅
Westeuropa	-	✅	✅	✅	✅	✅
Westus	-	✅	✅	✅	✅	✅
westus3	-	✅	✅	✅	✅	✅

Verfügbarkeit des Standardmodells der Datenzone

Region	gpt-5.5, 2026-04-24	gpt-5.4-mini, 2026-03-17	gpt-5.4, 2026-03-05	gpt-5.2, 2025-12-11	gpt-5.1, 2025-11-13	gpt-4.1, 2025-04-14
centralus	-	✅	✅	✅	✅	✅
eastus	-	✅	✅	✅	✅	✅
Eastus2	✅	✅	✅	✅	✅	-
Northcentralus	-	✅	✅	✅	✅	✅
southcentralus	✅	✅	✅	✅	✅	✅
Westus	-	✅	✅	✅	✅	✅
westus3	-	✅	✅	✅	✅	✅

Aktivieren der Prioritätsverarbeitung auf Bereitstellungsebene

Sie können die Prioritätsverarbeitung auf Bereitstellungsebene und (optional) auf Anforderungsebene aktivieren.

Hinweis

Die Prioritätsverarbeitung kann in globalen Standard- oder Datenzonenstandardbereitstellungen (USA) aktiviert werden. Die Prioritätsverarbeitung verwendet dasselbe Kontingent wie die Standardverarbeitung.

Aktivieren Sie im Portal Microsoft Foundry auf der Seite mit den Bereitstellungsdetails den Schieberegler für Priority Processing bei der Erstellung der Bereitstellung oder aktualisieren Sie die Einstellung eines bereitgestellten Modells durch Bearbeitung der Bereitstellungsdetails.

Hinweis

Wenn Sie code verwenden möchten, um die Prioritätsverarbeitung auf Bereitstellungsebene zu aktivieren, können Sie dies über die REST-API für die Bereitstellung tun, indem Sie das service_tier Attribut wie folgt festlegen: "properties" : {"service_tier" : "priority"} Zulässige Werte für das service_tier Attribut sind default und priority. default impliziert die Standardverarbeitung, während priority die Prioritätsverarbeitung ermöglicht.

Sobald eine Modellbereitstellung für die Verwendung der Prioritätsverarbeitung konfiguriert ist, können Sie mit dem Senden von Anforderungen an das Modell beginnen.

Anzeigen von Nutzungsmetriken

Sie können das Nutzungsmaß für Ihre Ressource im Abschnitt Azure Monitor im Azure-Portal anzeigen.

Um das Volumen der Anfragen zu sehen, die durch Standard- gegenüber Prioritätsverarbeitung bearbeitet werden, nach der Dienstestufe (Standard oder Priorität) im ursprünglichen Antrag aufgeteilt:

Melden Sie sich bei https://portal.azure.com.
Wechseln Sie zu Ihrer Azure OpenAI-Ressource, und wählen Sie im linken Navigationsbereich die Option Metrics aus.
Fügen Sie auf der Metrikseite die Azure OpenAI-AnforderungenMetrik hinzu. Sie können auch andere Metriken wie Azure OpenAI-Latenz, Azure OpenAI-Verwendung und andere auswählen.
Wählen Sie "Filter hinzufügen" aus, um die Standardbereitstellung auszuwählen, für die Prioritätsverarbeitungsanforderungen verarbeitet wurden.
Wählen Sie "Aufteilen anwenden" aus, um die Werte nach ServiceTierRequest und ServiceTierResponse aufzuteilen.

Weitere Informationen zur Überwachung Ihrer Bereitstellungen finden Sie unter Monitor Azure OpenAI.

Überwachen von Kosten

Sie können eine Aufschlüsselung der Kosten für Prioritäts- und Standardanforderungen auf der Kostenanalyseseite des Azure Portals anzeigen, indem Sie wie folgt nach Bereitstellungsnamen und Abrechnungstags filtern:

Wechseln Sie zur Kostenanalyseseite im portal Azure.
(Optional) Filtern nach Ressource.
Um nach dem Bereitstellungsnamen zu filtern: Fügen Sie einen Filter für die Abrechnung Tag hinzu>, wählen Sie deployment als Wert, und wählen Sie dann Ihren Bereitstellungsnamen.

Informationen zur Preisgestaltung für die Prioritätsverarbeitung finden Sie in der Azure OpenAI Service Preisübersicht.

Aktivieren der Prioritätsverarbeitung auf Anforderungsebene

Die Aktivierung der Prioritätsverarbeitung auf Anforderungsebene ist optional. Sowohl die API für Chatabschlusse als auch die Antwort-API verfügen über ein optionales Attribut service_tier , das den Verarbeitungstyp angibt, der beim Verarbeiten einer Anforderung verwendet werden soll. Das folgende Beispiel zeigt, wie service_tier auf priority in einer Anfragenanforderung festgelegt wird.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Verwenden Sie das service_tier Attribut, um die Einstellung auf Bereitstellungsebene außer Kraft zu setzen. service_tier kann die Werte auto, default und priority.

Wenn Sie das Attribut nicht festlegen, wird es standardmäßig auf auto.
service_tier = auto bedeutet, dass die Anforderung die in der Bereitstellung konfigurierte Dienstebene verwendet.
service_tier = default bedeutet, dass die Anforderung die Standardpreise und -leistung für das ausgewählte Modell verwendet.
service_tier = priority bedeutet, dass die Anforderung die Dienstebene für die Prioritätsverarbeitung verwendet.

In der folgenden Tabelle wird zusammengefasst, für welche Dienstebene Ihre Anforderungen basierend auf den Einstellungen service_tierauf Bereitstellungsebene und Anforderungsebene verarbeitet werden.

Einstellung auf Einsatzebene	anforderungsspezifische Einstellung	Von der Dienstebene verarbeitete Anforderung
Standard	Automatisch, Standard	Standard
Standard	Priorität	Prioritätsverarbeitung
Priorität	Auto, Priorität	Prioritätsverarbeitung
Priorität	Standard	Standard

Einschränkungen

Der Dienst unterstützt derzeit keine regionalen Standardbereitstellungen und EU-Datazone-Standardbereitstellungen.
Der Dienst leitet einige Prioritätsanforderungen möglicherweise während dieser Szenarien erneut an die Standardverarbeitung* weiter:
- Wenn Ihre Prioritätsverarbeitungstoken pro Minute schnell erhöht werden, kann dies zu einem Überschreiten der Rampenratenbegrenzungen führen. Derzeit wird das Rampenratenlimit als Erhöhung des Datenverkehrs um mehr als 50% Token pro Minute in weniger als 15 Minuten definiert.
- Während Zeiten mit Spitzenanforderungen zur Prioritätsverarbeitung.
- Lange Kontextanforderungen, die an bestimmte Modelle gesendet werden, die in der Zieltabelle "Latenz" aufgeführt sind.
Tipp

Wenn Sie routinemäßig auf Rampenratenlimits stoßen, sollten Sie PTU anstelle oder zusätzlich zur Prioritätsverarbeitung kaufen.

* Der Dienst berechnet die von der Standarddienstebene verarbeiteten Anfragen zu Standardtarifen. Anforderungen, die von der Standardmäßigen Dienstebene verarbeitet werden, sind in der Antwort enthalten service_tier = default , während Anforderungen, die von der Prioritätsverarbeitungsstufe verarbeitet werden, in die Antwort einbezogen werden service_tier = priority .

Problembehandlung

Angelegenheit	Ursache	Auflösung
Anforderungen, die auf die Standardebene herabgestuft wurden	Eine der folgenden Situationen: – Der Datenverkehr erhöhte sich in weniger als 15 Minuten um mehr als 50 % Token pro Minute und erreichte das Rampenratenlimit. – Anforderungen, die während Zeiträumen von Spitzenanforderungen an die Prioritätsverarbeitung gesendet wurden. – Lange Kontextanforderungen, die an bestimmte Modelle gesendet werden, die in der Zieltabelle "Latenz" aufgeführt sind.	– Erhöhen Sie den Datenverkehr schrittweise, sollten Sie Rampenratenbeschränkungen festgestellt haben. - Bitte erwägen Sie den Erwerb von PTU für eine stabile Kapazität.

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-11