Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Die Prioritätsverarbeitung bietet eine geringe Latenzleistung mit der Flexibilität von Pay-as-you-go. In diesem Artikel aktivieren Sie die Prioritätsverarbeitung für eine Modellbereitstellung, überprüfen, welche Dienstebene Ihre Anforderungen verarbeitet hat, und überwachen die zugehörigen Kosten.
Voraussetzungen
- Ein Azure-Abonnement – Create one for free.
- Ein Microsoft Foundry-Projekt mit einem Modell des Bereitstellungstyps
GlobalStandardoderDataZoneStandardwurde bereitgestellt. - Modellversionen
2025-12-01oder höher.
Wichtige Anwendungsfälle
- Konsistente, niedrige Latenz für reaktionsfähige Benutzeroberflächen.
- Pay-as-you-go Einfachheit ohne langfristige Verpflichtungen.
- Geschäftsstunden- oder burst-förmiger Datenverkehr, der von skalierten und kosteneffizienten Leistungen profitiert. Optionalerweise können Sie die Prioritätsverarbeitung mit bereitgestellten Durchsatzeinheiten (PTU) kombinieren, um die Kapazität im Dauerbetrieb aufrechtzuerhalten und die Kosten zu optimieren.
Ziel-Latenz
| Modell | Latenzzielwert2 |
|---|---|
| gpt-5.4, 2026-03-051 | 99% > 50 Token pro Sekunde |
| gpt-5.2, 2025-12-11 | 99% > 50 Token pro Sekunde |
| gpt-5.1, 2025-11-13 | 99% > 50 Token pro Sekunde |
| gpt-4.1, 2025-04-141 | 99% > 80 Token pro Sekunde |
1 Lange Kontextanforderungen (d. h. Anforderungen, die mit mehr als 128k-Eingabeaufforderungstoken geschätzt werden) werden auf die Standardverarbeitung herabgestuft, und Sie werden mit dem Standardebenensatz belastet.
2 Berechnet als p50-Anforderungslatenz pro 5 Minute.
Prioritätsverarbeitungsverfügbarkeit nach Bereitstellungstyp
Die Prioritätsverarbeitung kann in globalen Standardbereitstellungen oder Datenzonenstandardbereitstellungen (USA) aktiviert werden. Informationen zu den Preisen finden Sie unter the Azure OpenAI pricing page.
Globale Standardmodellverfügbarkeit
| Region | gpt-5.5, 2026-04-24 | gpt-5.4-mini, 2026-03-17 | gpt-5.4, 2026-03-05 | gpt-5.2, 2025-12-11 | gpt-5.1, 2025-11-13 | gpt-4.1, 2025-04-14 |
|---|---|---|---|---|---|---|
| australiaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| brasiliensouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| kanadacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| canadaeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| centralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| francecentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Deutschland Westzentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Italien-Nord | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Japaneast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| koreacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Northcentralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| norwayeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Polenzentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| südafricanorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Südostasien | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Südindien | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| spaniencentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| schwedencentral | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| schweiznorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Westschweiz | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Westeuropa | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Westus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| westus3 | - | ✅ | ✅ | ✅ | ✅ | ✅ |
Aktivieren der Prioritätsverarbeitung auf Bereitstellungsebene
Sie können die Prioritätsverarbeitung auf Bereitstellungsebene und (optional) auf Anforderungsebene aktivieren.
Hinweis
Die Prioritätsverarbeitung kann in globalen Standard- oder Datenzonenstandardbereitstellungen (USA) aktiviert werden. Die Prioritätsverarbeitung verwendet dasselbe Kontingent wie die Standardverarbeitung.
Aktivieren Sie im Portal Microsoft Foundry auf der Seite mit den Bereitstellungsdetails den Schieberegler für Priority Processing bei der Erstellung der Bereitstellung oder aktualisieren Sie die Einstellung eines bereitgestellten Modells durch Bearbeitung der Bereitstellungsdetails.
Hinweis
Wenn Sie code verwenden möchten, um die Prioritätsverarbeitung auf Bereitstellungsebene zu aktivieren, können Sie dies über die REST-API für die Bereitstellung tun, indem Sie das service_tier Attribut wie folgt festlegen: "properties" : {"service_tier" : "priority"} Zulässige Werte für das service_tier Attribut sind default und priority.
default impliziert die Standardverarbeitung, während priority die Prioritätsverarbeitung ermöglicht.
Sobald eine Modellbereitstellung für die Verwendung der Prioritätsverarbeitung konfiguriert ist, können Sie mit dem Senden von Anforderungen an das Modell beginnen.
Anzeigen von Nutzungsmetriken
Sie können das Nutzungsmaß für Ihre Ressource im Abschnitt Azure Monitor im Azure-Portal anzeigen.
Um das Volumen der Anfragen zu sehen, die durch Standard- gegenüber Prioritätsverarbeitung bearbeitet werden, nach der Dienstestufe (Standard oder Priorität) im ursprünglichen Antrag aufgeteilt:
- Melden Sie sich bei https://portal.azure.com.
- Wechseln Sie zu Ihrer Azure OpenAI-Ressource, und wählen Sie im linken Navigationsbereich die Option Metrics aus.
- Fügen Sie auf der Metrikseite die Azure OpenAI-AnforderungenMetrik hinzu. Sie können auch andere Metriken wie Azure OpenAI-Latenz, Azure OpenAI-Verwendung und andere auswählen.
- Wählen Sie "Filter hinzufügen" aus, um die Standardbereitstellung auszuwählen, für die Prioritätsverarbeitungsanforderungen verarbeitet wurden.
- Wählen Sie "Aufteilen anwenden" aus, um die Werte nach ServiceTierRequest und ServiceTierResponse aufzuteilen.
Weitere Informationen zur Überwachung Ihrer Bereitstellungen finden Sie unter Monitor Azure OpenAI.
Überwachen von Kosten
Sie können eine Aufschlüsselung der Kosten für Prioritäts- und Standardanforderungen auf der Kostenanalyseseite des Azure Portals anzeigen, indem Sie wie folgt nach Bereitstellungsnamen und Abrechnungstags filtern:
- Wechseln Sie zur Kostenanalyseseite im portal Azure.
- (Optional) Filtern nach Ressource.
- Um nach dem Bereitstellungsnamen zu filtern: Fügen Sie einen Filter für die Abrechnung Tag hinzu>, wählen Sie deployment als Wert, und wählen Sie dann Ihren Bereitstellungsnamen.
Informationen zur Preisgestaltung für die Prioritätsverarbeitung finden Sie in der Azure OpenAI Service Preisübersicht.
Aktivieren der Prioritätsverarbeitung auf Anforderungsebene
Die Aktivierung der Prioritätsverarbeitung auf Anforderungsebene ist optional. Sowohl die API für Chatabschlusse als auch die Antwort-API verfügen über ein optionales Attribut service_tier , das den Verarbeitungstyp angibt, der beim Verarbeiten einer Anforderung verwendet werden soll. Das folgende Beispiel zeigt, wie service_tier auf priority in einer Anfragenanforderung festgelegt wird.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
Verwenden Sie das service_tier Attribut, um die Einstellung auf Bereitstellungsebene außer Kraft zu setzen.
service_tier kann die Werte auto, default und priority.
Wenn Sie das Attribut nicht festlegen, wird es standardmäßig auf
auto.service_tier = autobedeutet, dass die Anforderung die in der Bereitstellung konfigurierte Dienstebene verwendet.service_tier = defaultbedeutet, dass die Anforderung die Standardpreise und -leistung für das ausgewählte Modell verwendet.service_tier = prioritybedeutet, dass die Anforderung die Dienstebene für die Prioritätsverarbeitung verwendet.
In der folgenden Tabelle wird zusammengefasst, für welche Dienstebene Ihre Anforderungen basierend auf den Einstellungen service_tierauf Bereitstellungsebene und Anforderungsebene verarbeitet werden.
| Einstellung auf Einsatzebene | anforderungsspezifische Einstellung | Von der Dienstebene verarbeitete Anforderung |
|---|---|---|
| Standard | Automatisch, Standard | Standard |
| Standard | Priorität | Prioritätsverarbeitung |
| Priorität | Auto, Priorität | Prioritätsverarbeitung |
| Priorität | Standard | Standard |
Einschränkungen
Der Dienst unterstützt derzeit keine regionalen Standardbereitstellungen und EU-Datazone-Standardbereitstellungen.
Der Dienst leitet einige Prioritätsanforderungen möglicherweise während dieser Szenarien erneut an die Standardverarbeitung* weiter:
- Wenn Ihre Prioritätsverarbeitungstoken pro Minute schnell erhöht werden, kann dies zu einem Überschreiten der Rampenratenbegrenzungen führen. Derzeit wird das Rampenratenlimit als Erhöhung des Datenverkehrs um mehr als 50% Token pro Minute in weniger als 15 Minuten definiert.
- Während Zeiten mit Spitzenanforderungen zur Prioritätsverarbeitung.
- Lange Kontextanforderungen, die an bestimmte Modelle gesendet werden, die in der Zieltabelle "Latenz" aufgeführt sind.
Tipp
Wenn Sie routinemäßig auf Rampenratenlimits stoßen, sollten Sie PTU anstelle oder zusätzlich zur Prioritätsverarbeitung kaufen.
* Der Dienst berechnet die von der Standarddienstebene verarbeiteten Anfragen zu Standardtarifen. Anforderungen, die von der Standardmäßigen Dienstebene verarbeitet werden, sind in der Antwort enthalten
service_tier = default, während Anforderungen, die von der Prioritätsverarbeitungsstufe verarbeitet werden, in die Antwort einbezogen werdenservice_tier = priority.
Problembehandlung
| Angelegenheit | Ursache | Auflösung |
|---|---|---|
| Anforderungen, die auf die Standardebene herabgestuft wurden | Eine der folgenden Situationen: – Der Datenverkehr erhöhte sich in weniger als 15 Minuten um mehr als 50 % Token pro Minute und erreichte das Rampenratenlimit. – Anforderungen, die während Zeiträumen von Spitzenanforderungen an die Prioritätsverarbeitung gesendet wurden. – Lange Kontextanforderungen, die an bestimmte Modelle gesendet werden, die in der Zieltabelle "Latenz" aufgeführt sind. |
– Erhöhen Sie den Datenverkehr schrittweise, sollten Sie Rampenratenbeschränkungen festgestellt haben. - Bitte erwägen Sie den Erwerb von PTU für eine stabile Kapazität. |