Ativar o processamento prioritário para modelos Microsoft Foundry

O processamento prioritário oferece desempenho de baixa latência com a flexibilidade do pay-as-you-go. Neste artigo, ativa o processamento prioritário numa implementação de modelo, verifica qual o nível de serviço que processou os seus pedidos e monitoriza os custos associados.

Pré-requisitos

Uma subscrição Azure - Crie uma gratuitamente.
Um projeto Microsoft Foundry com um modelo do tipo de implantação GlobalStandard ou DataZoneStandard foi implementado.
Versões 2025-12-01 do modelo ou posteriores.

Principais casos de uso

Consistência e baixa latência para experiências de utilizador responsivas.
Simplicidade de pagar conforme o uso , sem compromissos a longo prazo.
Tráfego durante o horário de expediente ou com picos de atividade que beneficia de desempenho escalável e eficiente em termos de custos. Pode, opcionalmente, combinar processamento prioritário com Unidades de Débito Provisionadas (PTU) para capacidade constante e otimização de custos.

Meta de latência

Modelo	Valor de alvo de latência²
GPT-5.5, 2026-04-24	99% > 100 tokens por segundo
GPT-5.4, 2026-03-05¹	99% > 50 tokens por segundo
GPT-5.2, 2025-12-11	99% > 50 tokens por segundo
GPT-5.1, 2025-11-13	99% > 50 tokens por segundo
GPT-4.1, 2025-04-14¹	99% > 80 tokens por segundo

¹ Pedidos de contexto longo (isto é, pedidos estimados em mais de 128k tokens de prompt) serão degradados para processamento padrão e serás cobrado à taxa de nível padrão.

² Calculado como latência de pedido p50 com base em intervalos de 5 minutos.

Disponibilidade de processamento prioritário por tipo de implementação

O processamento prioritário pode ser ativado em implementações com padrão Global ou em implementações padrão de Zona de Dados (EUA). Para informações sobre preços, consulte a página de preços da Azure OpenAI.

Norma global
Padrão de Zona de Dados

Disponibilidade global de modelos padrão

Região	GPT-5.5, 2026-04-24	GPT-5.4-MINI, 2026-03-17	GPT-5.4, 05-03-2026	GPT-5.2, 2025-12-11	GPT-5.1, 2025-11-13	GPT-4.1, 2025-04-14
AustráliaEast	-	✅	✅	✅	✅	✅
Brasil-Sul	-	✅	✅	✅	✅	✅
CanadaCentral	-	✅	✅	✅	✅	✅
Canadá Oriental	-	✅	✅	✅	✅	✅
Centralus	-	✅	✅	✅	✅	✅
eastus	-	✅	✅	✅	✅	✅
eastus2	✅	✅	✅	✅	✅	-
Francecentral	-	✅	✅	✅	✅	✅
Alemanha Centro-Ocidental	-	✅	✅	✅	✅	✅
Itália Norte	-	✅	✅	✅	✅	✅
japaneast	-	✅	✅	✅	✅	✅
Koreacentral	-	✅	✅	✅	✅	✅
Northcentralus	-	✅	✅	✅	✅	✅
Norwayeast	-	✅	✅	✅	✅	✅
Polónia Central	✅	✅	✅	✅	✅	✅
África do Sul-Norte	-	✅	✅	✅	✅	✅
Southcentralus	✅	✅	✅	✅	✅	✅
Southeastasia	-	✅	✅	✅	✅	✅
Sul da Índia	-	✅	✅	✅	✅	✅
Espanha Central	-	✅	✅	✅	✅	✅
Suécia-Central	✅	✅	✅	✅	✅	✅
Suíça-norte	-	✅	✅	✅	✅	✅
Suíça-Oeste	-	✅	✅	✅	✅	✅
uaenorth	-	✅	✅	✅	✅	✅
uksouth	-	✅	✅	✅	✅	✅
Europa Ocidental	-	✅	✅	✅	✅	✅
Westus	-	✅	✅	✅	✅	✅
Westus3	-	✅	✅	✅	✅	✅

Disponibilidade do modelo padrão em zonas de dados

Região	GPT-5.5, 2026-04-24	GPT-5.4-MINI, 2026-03-17	GPT-5.4, 05-03-2026	GPT-5.2, 2025-12-11	GPT-5.1, 2025-11-13	GPT-4.1, 2025-04-14
Centralus	-	✅	✅	✅	✅	✅
eastus	-	✅	✅	✅	✅	✅
eastus2	✅	✅	✅	✅	✅	-
Northcentralus	-	✅	✅	✅	✅	✅
Southcentralus	✅	✅	✅	✅	✅	✅
Westus	-	✅	✅	✅	✅	✅
Westus3	-	✅	✅	✅	✅	✅

Ativar o processamento prioritário ao nível de implementação

Pode ativar o processamento prioritário ao nível de implementação e (opcionalmente) ao nível do pedido.

Nota

O processamento prioritário pode ser ativado em implementações de padrão Global ou de Zona de Dados (EUA). O processamento prioritário utiliza a mesma quota que o processamento padrão.

No portal Microsoft Foundry, ative a opção Priority processing na página de detalhes da implementação ao criar a implementação ou atualize a definição de um modelo implementado editando os detalhes da implementação.

Nota

Se preferir usar código para ativar o processamento prioritário ao nível da implementação, pode fazê-lo através da API REST para a implementação, definindo o service_tier atributo da seguinte forma: "properties" : {"service_tier" : "priority"}. Os valores permitidos para o service_tier atributo são default e priority. default implica processamento padrão, enquanto priority permite o processamento prioritário.

Uma vez que a implementação do modelo esteja configurada para usar processamento prioritário, pode começar a enviar pedidos para o modelo.

Ver métricas de utilização

Pode ver a medida de utilização do seu recurso na secção Azure Monitor do portal Azure.

Para visualizar o volume de pedidos processados pelo processamento padrão versus o processamento prioritário, divida-se pelo nível de serviço (padrão ou prioridade) que estava no pedido original:

Iniciar sessão em https://portal.azure.com.
Vai ao teu recurso Azure OpenAI e seleciona a opção Métricas na navegação à esquerda.
Na página de métricas, adicione a métrica pedidos Azure OpenAI. Também pode selecionar outras métricas como latência do Azure OpenAI, utilização do Azure OpenAI, entre outras.
Selecione Adicionar filtro para selecionar a implementação padrão em que os pedidos de processamento prioritário foram tratados.
Selecione Aplicar divisão para dividir os valores por ServiceTierRequest e ServiceTierResponse.

Para mais informações sobre monitorização das suas implementações, consulte Monitor Azure OpenAI.

Monitorizar custos

Pode ver uma divisão dos custos para pedidos prioritários e padrão na página de análise de custos do portal Azure, filtrando pelo nome de implementação e etiquetas de faturação da seguinte forma:

Vai à página de análise de custos no portal Azure.
(Opcional) Filtrar por recurso.
Para filtrar por nome de implementação: Adicione um filtro para a Tag de faturação, selecione "implementação" como valor e depois escolha o nome da implementação.

Para informações sobre preços para processamento prioritário, consulte a visão geral de preços Azure OpenAI Service.

Ativar o processamento prioritário ao nível do pedido

Ativar o processamento prioritário ao nível do pedido é opcional. Tanto a API de completação de chat como a API de respostas têm um atributo service_tier opcional que especifica o tipo de processamento a usar ao servir um pedido. O exemplo seguinte mostra como definir service_tier como priority num pedido de resposta.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Use o service_tier atributo para sobrepor a definição de nível de implantação. service_tier pode tomar os valores auto, default, e priority.

Se não definires o atributo, ele passa por defeito a auto.
service_tier = auto significa que o pedido utiliza o nível de serviço configurado na implementação.
service_tier = default significa que o pedido utiliza o preço e desempenho padrão para o modelo selecionado.
service_tier = priority significa que o pedido utiliza o nível de serviço de processamento prioritário.

A tabela seguinte resume qual o nível de serviço que processa os seus pedidos com base nas definições ao nível de implementação e ao nível de pedido para service_tier.

Definição do nível de implantação	Definição de nível de pedido	Pedido processado por nível de serviço
predefinição	automático, padrão	Standard
predefinição	Prioridade	Processamento prioritário
Prioridade	Auto, prioridade	Processamento prioritário
Prioridade	predefinição	Standard

Limitações

Atualmente, o serviço não suporta implementações padrão regionais nem implementações padrão para zonas de dados na UE.
O serviço pode redirecionar alguns pedidos de prioridade para processamento padrão* durante estes cenários:
- Se aumentos rápidos nos teus tokens de prioridade de processamento por minuto levam a atingir os limites de taxa de rampa. Atualmente, o limite de taxa de rampa é definido como aumentar o tráfego em mais de 50% tokens por minuto em menos de 15 minutos.
- Durante períodos de pico de pedidos, há prioridade no processamento.
- Pedidos de contexto longos enviados a certos modelos listados na tabela de alvo de latência.
Dica

Se encontrar regularmente limites de taxa de rampa, considere comprar PTU em vez de ou além do processamento prioritário.

* O serviço cobra pedidos processados pelo nível de serviço padrão a tarifas padrão. Os pedidos processados pelo nível de serviço padrão incluem service_tier = default na resposta, enquanto os pedidos processados pelo nível de processamento prioritário incluem service_tier = priority na resposta.

Resolução de problemas

Problema	Causa	Resolução
Pedidos rebaixados para nível padrão	Uma destas situações: - O tráfego aumentou para mais de 50 tokens por minuto em menos de 15 minutos, atingindo o limite de rampa. - Pedidos enviados durante períodos de pico para processamento prioritário. - Pedidos de contexto longos enviados a certos modelos listados na tabela de alvo de latência.	- Aumentar o tráfego gradualmente, caso tenha encontrado limites de taxa de rampa. - Considerar a compra de PTU para capacidade em regime estacionário.

Comentários

Esta página foi útil?

Last updated on 2026-05-11