Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
O processamento prioritário oferece desempenho de baixa latência com a flexibilidade do pay-as-you-go. Neste artigo, ativa o processamento prioritário numa implementação de modelo, verifica qual o nível de serviço que processou os seus pedidos e monitoriza os custos associados.
Pré-requisitos
- Uma subscrição Azure - Crie uma gratuitamente.
- Um projeto Microsoft Foundry com um modelo do tipo de implantação
GlobalStandardouDataZoneStandardfoi implementado. - Versões
2025-12-01do modelo ou posteriores.
Principais casos de uso
- Consistência e baixa latência para experiências de utilizador responsivas.
- Simplicidade de pagar conforme o uso , sem compromissos a longo prazo.
- Tráfego durante o horário de expediente ou com picos de atividade que beneficia de desempenho escalável e eficiente em termos de custos. Pode, opcionalmente, combinar processamento prioritário com Unidades de Débito Provisionadas (PTU) para capacidade constante e otimização de custos.
Meta de latência
| Modelo | Valor de alvo de latência2 |
|---|---|
| GPT-5.5, 2026-04-24 | 99% > 100 tokens por segundo |
| GPT-5.4, 2026-03-051 | 99% > 50 tokens por segundo |
| GPT-5.2, 2025-12-11 | 99% > 50 tokens por segundo |
| GPT-5.1, 2025-11-13 | 99% > 50 tokens por segundo |
| GPT-4.1, 2025-04-141 | 99% > 80 tokens por segundo |
1 Pedidos de contexto longo (isto é, pedidos estimados em mais de 128k tokens de prompt) serão degradados para processamento padrão e serás cobrado à taxa de nível padrão.
2 Calculado como latência de pedido p50 com base em intervalos de 5 minutos.
Disponibilidade de processamento prioritário por tipo de implementação
O processamento prioritário pode ser ativado em implementações com padrão Global ou em implementações padrão de Zona de Dados (EUA). Para informações sobre preços, consulte a página de preços da Azure OpenAI.
Disponibilidade global de modelos padrão
| Região | GPT-5.5, 2026-04-24 | GPT-5.4-MINI, 2026-03-17 | GPT-5.4, 05-03-2026 | GPT-5.2, 2025-12-11 | GPT-5.1, 2025-11-13 | GPT-4.1, 2025-04-14 |
|---|---|---|---|---|---|---|
| AustráliaEast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Brasil-Sul | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| CanadaCentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Canadá Oriental | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Centralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| eastus2 | ✅ | ✅ | ✅ | ✅ | ✅ | - |
| Francecentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Alemanha Centro-Ocidental | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Itália Norte | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| japaneast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Koreacentral | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Northcentralus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Norwayeast | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Polónia Central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| África do Sul-Norte | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Southcentralus | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Southeastasia | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Sul da Índia | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Espanha Central | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Suécia-Central | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
| Suíça-norte | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Suíça-Oeste | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uaenorth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| uksouth | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Europa Ocidental | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Westus | - | ✅ | ✅ | ✅ | ✅ | ✅ |
| Westus3 | - | ✅ | ✅ | ✅ | ✅ | ✅ |
Ativar o processamento prioritário ao nível de implementação
Pode ativar o processamento prioritário ao nível de implementação e (opcionalmente) ao nível do pedido.
Nota
O processamento prioritário pode ser ativado em implementações de padrão Global ou de Zona de Dados (EUA). O processamento prioritário utiliza a mesma quota que o processamento padrão.
No portal Microsoft Foundry, ative a opção Priority processing na página de detalhes da implementação ao criar a implementação ou atualize a definição de um modelo implementado editando os detalhes da implementação.
Nota
Se preferir usar código para ativar o processamento prioritário ao nível da implementação, pode fazê-lo através da API REST para a implementação, definindo o service_tier atributo da seguinte forma: "properties" : {"service_tier" : "priority"}. Os valores permitidos para o service_tier atributo são default e priority.
default implica processamento padrão, enquanto priority permite o processamento prioritário.
Uma vez que a implementação do modelo esteja configurada para usar processamento prioritário, pode começar a enviar pedidos para o modelo.
Ver métricas de utilização
Pode ver a medida de utilização do seu recurso na secção Azure Monitor do portal Azure.
Para visualizar o volume de pedidos processados pelo processamento padrão versus o processamento prioritário, divida-se pelo nível de serviço (padrão ou prioridade) que estava no pedido original:
- Iniciar sessão em https://portal.azure.com.
- Vai ao teu recurso Azure OpenAI e seleciona a opção Métricas na navegação à esquerda.
- Na página de métricas, adicione a métrica pedidos Azure OpenAI. Também pode selecionar outras métricas como latência do Azure OpenAI, utilização do Azure OpenAI, entre outras.
- Selecione Adicionar filtro para selecionar a implementação padrão em que os pedidos de processamento prioritário foram tratados.
- Selecione Aplicar divisão para dividir os valores por ServiceTierRequest e ServiceTierResponse.
Para mais informações sobre monitorização das suas implementações, consulte Monitor Azure OpenAI.
Monitorizar custos
Pode ver uma divisão dos custos para pedidos prioritários e padrão na página de análise de custos do portal Azure, filtrando pelo nome de implementação e etiquetas de faturação da seguinte forma:
- Vai à página de análise de custos no portal Azure.
- (Opcional) Filtrar por recurso.
- Para filtrar por nome de implementação: Adicione um filtro para a Tag de faturação, selecione "implementação" como valor e depois escolha o nome da implementação.
Para informações sobre preços para processamento prioritário, consulte a visão geral de preços Azure OpenAI Service.
Ativar o processamento prioritário ao nível do pedido
Ativar o processamento prioritário ao nível do pedido é opcional. Tanto a API de completação de chat como a API de respostas têm um atributo service_tier opcional que especifica o tipo de processamento a usar ao servir um pedido. O exemplo seguinte mostra como definir service_tier como priority num pedido de resposta.
curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
-d '{
"model": "gpt-4.1",
"input": "This is a test",
"service_tier": "priority"
}'
Use o service_tier atributo para sobrepor a definição de nível de implantação.
service_tier pode tomar os valores auto, default, e priority.
Se não definires o atributo, ele passa por defeito a
auto.service_tier = autosignifica que o pedido utiliza o nível de serviço configurado na implementação.service_tier = defaultsignifica que o pedido utiliza o preço e desempenho padrão para o modelo selecionado.service_tier = prioritysignifica que o pedido utiliza o nível de serviço de processamento prioritário.
A tabela seguinte resume qual o nível de serviço que processa os seus pedidos com base nas definições ao nível de implementação e ao nível de pedido para service_tier.
| Definição do nível de implantação | Definição de nível de pedido | Pedido processado por nível de serviço |
|---|---|---|
| predefinição | automático, padrão | Standard |
| predefinição | Prioridade | Processamento prioritário |
| Prioridade | Auto, prioridade | Processamento prioritário |
| Prioridade | predefinição | Standard |
Limitações
Atualmente, o serviço não suporta implementações padrão regionais nem implementações padrão para zonas de dados na UE.
O serviço pode redirecionar alguns pedidos de prioridade para processamento padrão* durante estes cenários:
- Se aumentos rápidos nos teus tokens de prioridade de processamento por minuto levam a atingir os limites de taxa de rampa. Atualmente, o limite de taxa de rampa é definido como aumentar o tráfego em mais de 50% tokens por minuto em menos de 15 minutos.
- Durante períodos de pico de pedidos, há prioridade no processamento.
- Pedidos de contexto longos enviados a certos modelos listados na tabela de alvo de latência.
Dica
Se encontrar regularmente limites de taxa de rampa, considere comprar PTU em vez de ou além do processamento prioritário.
* O serviço cobra pedidos processados pelo nível de serviço padrão a tarifas padrão. Os pedidos processados pelo nível de serviço padrão incluem
service_tier = defaultna resposta, enquanto os pedidos processados pelo nível de processamento prioritário incluemservice_tier = priorityna resposta.
Resolução de problemas
| Problema | Causa | Resolução |
|---|---|---|
| Pedidos rebaixados para nível padrão | Uma destas situações: - O tráfego aumentou para mais de 50 tokens por minuto em menos de 15 minutos, atingindo o limite de rampa. - Pedidos enviados durante períodos de pico para processamento prioritário. - Pedidos de contexto longos enviados a certos modelos listados na tabela de alvo de latência. |
- Aumentar o tráfego gradualmente, caso tenha encontrado limites de taxa de rampa. - Considerar a compra de PTU para capacidade em regime estacionário. |