Habilitar o processamento de prioridade para modelos de Microsoft Foundry

O processamento prioritário fornece desempenho de baixa latência com a flexibilidade do pagamento por uso. Neste artigo, você habilita o processamento de prioridade em uma implantação de modelo, verifica qual camada de serviço processou suas solicitações e monitora os custos associados.

Pré-requisitos

  • Uma assinatura Azure – Criar uma gratuitamente.
  • Um projeto Microsoft Foundry com um modelo de tipo de implantação GlobalStandard ou DataZoneStandard já implantado.
  • Versões 2025-12-01 de modelo ou posteriores.

Principais casos de uso

  • Latência consistente e baixa para experiências de usuário responsivas.
  • Simplicidade paga conforme o uso sem compromissos de longo prazo.
  • Tráfego em horário comercial ou tráfego intermitente que se beneficia do desempenho escalonável e econômico. Você pode, opcionalmente, combinar o processamento de prioridade com Unidades de Taxa de Transferência Provisionada (PTU) para otimização de capacidade em estado estacionário e custo.

Meta de latência

Modelo Valor de destino de latência2
gpt-5.4, 2026-03-051 99% > 50 tokens por segundo
gpt-5.2, 2025-12-11 99% > 50 tokens por segundo
gpt-5.1, 2025-11-13 99% > 50 tokens por segundo
gpt-4.1, 2025-04-141 99% > 80 tokens por segundo

1 Solicitações de contexto longo (ou seja, solicitações estimadas em tokens de prompt maiores que 128k) serão rebaixadas para o processamento padrão e você será cobrado na taxa de camada padrão.

2 Calculado como latência de solicitação p50 por 5 minutos.

Disponibilidade de processamento prioritário por tipo de implantação

O processamento de prioridade pode ser habilitado em implantações padrão global ou implantações padrão da Zona de Dados (EUA). Para obter informações sobre preços, consulte a página de preços Azure OpenAI.

Disponibilidade de modelo padrão global

Região gpt-5.5, 2026-04-24 gpt-5.4-mini, 2026-03-17 gpt-5.4, 2026-03-05 gpt-5.2, 2025-12-11 gpt-5.1, 2025-11-13 gpt-4.1, 2025-04-14
australiaeast -
brazilsouth -
canadacentral -
canadá-leste -
centralus -
eastus -
eastus2 -
francecentral -
alemanhaoestecentral -
italynorth -
japaneast -
koreacentral -
northcentralus -
norwayeast -
polandcentral
southafricanorth -
southcentralus
southeastasia -
Sul da Índia -
spaincentral -
swedencentral
switzerlandnorth -
switzerlandwest -
uaenorth -
uksouth -
westeurope -
westus -
westus3 -

Habilitar o processamento de prioridade no nível de implantação

Você pode habilitar o processamento de prioridade no nível de implantação e (opcionalmente) no nível da solicitação.

Nota

O processamento de prioridade pode ser habilitado em implantações padrão global ou padrão da Zona de Dados (EUA). O processamento de prioridade usa a mesma cota que o processamento padrão.

No portal Microsoft Foundry, ative a alternância de Priority processing na página de detalhes da implantação para criar a implantação ou para atualizar a configuração de um modelo implantado, editando os detalhes da implantação.

Captura de tela mostrando como habilitar o processamento de prioridade durante a implantação do modelo no portal do Foundry.

Nota

Se você preferir usar o código para habilitar o processamento de prioridade no nível de implantação, poderá fazê-lo por meio da API REST para implantação definindo o service_tier atributo da seguinte maneira: "properties" : {"service_tier" : "priority"}. Os valores permitidos para o service_tier atributo são default e priority. default implica o processamento padrão, enquanto priority habilita o processamento de prioridade.

Depois que uma implantação de modelo é configurada para usar o processamento de prioridade, você pode começar a enviar solicitações para o modelo.

Exibir métricas de uso

Você pode exibir a medida de utilização do recurso na seção Azure Monitor no portal do Azure.

Para exibir o volume de solicitações processadas pelo processamento padrão versus o processamento de prioridade, divida pela camada de serviço (padrão ou prioridade) que estava na solicitação original:

  1. Entre em https://portal.azure.com.
  2. Vá para o recurso Azure OpenAI e selecione a opção Metrics na navegação à esquerda.
  3. Na página de métricas, adicione a métrica Azure OpenAI requests. Você também pode selecionar outras métricas, como latência do Azure OpenAI, uso do Azure OpenAI e outras.
  4. Selecione Adicionar filtro para selecionar a implantação padrão para a qual as solicitações de processamento de prioridade foram processadas.
  5. Selecione Aplicar divisão para dividir os valores por ServiceTierRequest e ServiceTierResponse.

Captura de tela da utilização de processamento de prioridade na página de métricas do recurso no portal do Azure.

Para obter mais informações sobre como monitorar suas implantações, consulte Monitor Azure OpenAI.

Monitorar custos

Você pode ver a divisão dos custos das solicitações prioritárias e padrão na página de análise de custos do portal Azure filtrando por nome da implantação e tags de cobrança como segue:

  1. Vá para a página de análise de custos no Azure portal.
  2. (Opcional) Filtrar por recurso.
  3. Para filtrar pelo nome da implantação: adicione um filtro de cobrança Tag> selecione implantação como o valor e escolha o nome da implantação.

Screenshot do uso do processamento prioritário na página de análise de custos do recurso no portal do Azure.

Para obter informações sobre preços para processamento de prioridade, consulte a visão geral de preços Serviço OpenAI do Azure.

Habilitar o processamento de prioridade no nível da solicitação

Habilitar o processamento de prioridade no nível da solicitação é opcional. A API de conclusões de chat e a API de respostas têm um atributo service_tier opcional que especifica o tipo de processamento a ser usado ao atender a uma solicitação. O exemplo service_tier a seguir mostra como definir priority em uma solicitação de resposta.

curl -X POST https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/responses \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $AZURE_OPENAI_AUTH_TOKEN" \
  -d '{
     "model": "gpt-4.1",
     "input": "This is a test",
     "service_tier": "priority"
    }'

Use o service_tier atributo para substituir a configuração de nível de implantação. service_tier pode levar os valores auto, defaulte priority.

  • Se você não definir o atributo, ele usará como padrão auto.

  • service_tier = auto significa que a solicitação usa a camada de serviço configurada na implantação.

  • service_tier = default significa que a solicitação usa o preço e o desempenho padrão para o modelo selecionado.

  • service_tier = priority significa que a solicitação usa a camada de serviço de processamento de prioridade.

A tabela a seguir resume qual camada de serviço processa suas solicitações com base nas configurações de nível de implantação e de solicitação para service_tier.

Configuração de nível de implantação Configuração no nível da solicitação Solicitação processada por camada de serviço
padrão auto, padrão Standard
padrão Prioridade Processamento prioritário
Prioridade auto, prioridade Processamento prioritário
Prioridade padrão Standard

Limitações

  • Atualmente, o serviço não dá suporte a implantações regionais padrão e implantações padrão de zona de dados da UE.

  • O serviço pode redirecionar algumas solicitações de prioridade para o processamento padrão* durante estes cenários:

    • Se aumentos rápidos nos seus tokens de processamento de prioridade por minuto levarem ao atingimento dos limites de taxa de incremento. Atualmente, o limite de taxa de rampa é definido como aumentar o tráfego em mais de 50 tokens% por minuto em menos de 15 minutos.
    • Durante períodos de pico de solicitações para o processamento prioritário.
    • Solicitações de contexto longo enviadas a determinados modelos listados na tabela de metas de latência.

    Dica

    Se você encontrar rotineiramente limites de taxa de rampa, considere a compra de PTU em vez de ou além do processamento de prioridade.

    * O serviço cobra as solicitações processadas pela camada de serviço padrão às taxas padrão. As solicitações processadas pela camada de serviço padrão incluem service_tier = default na resposta, enquanto as solicitações processadas pela camada de processamento de prioridade incluem service_tier = priority na resposta.

Solucionando problemas

Questão Causa Resolução
Solicitações rebaixadas para a camada padrão Uma destas situações:
- O tráfego aumentou mais de 50% de tokens por minuto em menos de 15 minutos, atingindo o limite de taxa de aceleração.
- Solicitações enviadas durante períodos de pico de solicitações para processamento de prioridade.
- Solicitações de contexto longo enviadas para determinados modelos listados na tabela de metas de latência.
- Aumente o tráfego gradualmente, se você tiver encontrado limites de taxa de rampa.
– Considere a compra de PTU para capacidade estável.