Quotas e limites do Microsoft Foundry Models

Este artigo fornece uma referência rápida e uma descrição detalhada das quotas e limites para modelos Foundry vendidos diretamente por Azure. Para quotas e limites específicos do Azure OpenAI em Foundry Models, veja Quotas e limites em Azure OpenAI.

Atualizações na gestão de quotas após 07/05/2026

A Microsoft Foundry está a introduzir uma atualização na gestão das quotas para trazer consistência e previsibilidade na forma como as quotas são geridas ao longo das implementações. A partir do Realtime Translate e do Realtime Whisper, a quota para implementações é acompanhada ao nível da subscrição — partilhada entre todos os recursos e regiões — em vez de ser alocada separadamente por recurso ou por região.

Esta alteração consolida a quota em pools partilhados:

  • Padrão Global: Implementações do mesmo modelo e versão partilham um único pool de quotas em todas as regiões de uma subscrição.
  • Data Zone Standard: Implementações do mesmo modelo e versão partilham um pool de quotas por zona de dados (por exemplo, EUA ou UE).

O que está a mudar para mim?

Para os modelos incorporados, o novo sistema de gestão de quotas:

  • Todas as implementações de Global Standard do mesmo modelo e versão sob subscrição passam a ser retiradas de um único pool de quotas partilhadas em todas as regiões.
  • Todas as implementações do Data Zone Standard do mesmo modelo e versão sob uma subscrição utilizam agora um pool de quotas partilhado dentro de cada zona de dados.
  • A quota aprovada existente é mantida e aplica-se automaticamente ao nível da subscrição — não é necessária qualquer ação.

Esta consolidação permite à Microsoft Foundry oferecer modelos suportados de forma consistente em todas as regiões da Foundry, independentemente da distribuição das quotas entre recursos ou regiões.

Importante

A gestão atualizada das quotas aplica-se atualmente apenas ao Realtime Translate e ao Realtime Whisper. Para todos os outros Modelos de Foundry abordados neste artigo, as quotas e limites são geridos por região, por subscrição e por modelo ou tipo de implementação. No futuro, estas diretrizes de quotas também se aplicarão a alguns modelos existentes e a novos lançamentos de Modelos Foundry.

Quotas e limites de referência

As secções seguintes fornecem um guia rápido sobre as quotas e limites padrão que se aplicam aos modelos Foundry. Quotas e limites não são aplicados ao nível do inquilino. Em vez disso, o nível mais elevado de restrições de quotas é definido ao nível de subscrição do Azure. Os limites de tokens por minuto (TPM) e pedidos por minuto (RPM) são definidos por região, por subscrição e por modelo ou tipo de implementação.

Limites de recursos (por subscripção Azure, por região)

Nome do limite Valor limite
Recursos Foundry por região por subscrição do Azure 100
Máximo de projetos por recurso 250
Implementações máximas por recurso (implementações de modelos dentro de um recurso Foundry) 32

Limites de taxa

A tabela seguinte lista os limites para modelos Foundry para as seguintes taxas:

  • Tokens por minuto
  • Pedidos por minuto
  • Pedido simultâneo
Modelos Tokens por minuto Pedidos por minuto Pedidos simultâneos
Modelos Azure OpenAI Varia consoante o modelo e o SKU. Veja limits para Azure OpenAI. Varia consoante o modelo e o SKU. Veja limits para Azure OpenAI. Varia. Ver Limites do Azure OpenAI.
- DeepSeek-R1
- DeepSeek-V3-0324
5,000,000 5,000 300
- Llama 3.3 70B Instruct
- Llama-4-Maverick-17B-128E-Instruct-FP8
- Grok 3
- Grok 3 mini
400,000 1,000 300
- Flux.2-Pro Não aplicável - Baixo (Padrão): 15
- Médio: 30
- Alto (Empresarial): 100
Não aplicável
- Flux-Pro 1.1
- Flux.1-Kontext Pro
Não aplicável 2 unidades de capacidade (6 pedidos por minuto) Não aplicável
Restante dos modelos 400,000 1,000 300

Para aumentar a sua quota:

Devido à elevada procura, os pedidos de aumento de limites são avaliados individualmente.

Outros limites

Nome do limite Valor limite
Número máximo de cabeçalhos personalizados nos pedidosAPI 1 10

1 As APIs atuais permitem até 10 cabeçalhos personalizados, que o pipeline pode processar e devolver. Se ultrapassar este número de cabeçalhos, o seu pedido resulta num erro HTTP 431. Para resolver este erro, reduza o volume do cabeçalho. As futuras versões da API não passam por cabeçalhos personalizados. Não dependas de cabeçalhos personalizados em futuras arquiteturas de sistema.

Níveis de utilização

As implementações do Global Standard utilizam a infraestrutura global do Azure para encaminhar dinamicamente o tráfego dos clientes para o centro de dados, com a melhor disponibilidade para os pedidos de inferência do cliente. Esta infraestrutura permite uma latência mais consistente para clientes com níveis baixos a médios de tráfego. Clientes com elevados níveis sustentados de utilização podem observar mais variações na latência de resposta.

O Limite de Utilização determina o nível de utilização acima do qual os clientes podem observar maior variabilidade na latência de resposta. A utilização de um cliente é definida por modelo e corresponde ao total de tokens consumidos em todas as implementações, em todas as subscrições, em todas as regiões para um dado inquilino.

Solicitar aumentos para os limites padrão

Submeta o formulário de pedido de aumento de quota para solicitar aumentos de quota para modelos Foundry vendidos diretamente pela Azure, modelos Azure OpenAI e modelos Anthropic. Exceto para modelos Anthropic, modelos de parceiros e comunidade não suportam aumentos de cotas.

Os pedidos de aumento de quotas são processados pela ordem em que são recebidos, e a prioridade vai para os clientes que utilizam ativamente a sua quota de alocação existente. Pedidos que não cumpram esta condição podem ser recusados.

Melhores práticas gerais para se manter dentro dos limites de taxa

Para minimizar problemas relacionados com limites de taxa, utilize as seguintes técnicas:

  • Implementa lógica de repetição na sua aplicação.
  • Evite mudanças bruscas na carga de trabalho. Aumenta a carga de trabalho gradualmente.
  • Testa diferentes padrões de aumento de carga.
  • Aumente a quota atribuída à sua missão. Transferir quota de outra missão, se necessário.

Definir o timeout do lado do cliente

Defina explicitamente o timeout do lado do cliente com base nas seguintes orientações.

Nota

Se não for explicitamente definido, o timeout do lado do cliente existe conforme a biblioteca utilizada e pode não ter os mesmos limites acima.

  • Modelos de raciocínio (modelos que geram tokens de raciocínio intermédio antes de produzir uma resposta resumida): até 29 minutos.
  • Modelos sem raciocínio
    • Para streaming, até 60 segundos.
    • Para pedidos que não envolvam streaming, até 29 minutos.

29 minutos aqui não significa que todos os pedidos demorem 29 minutos, mas dependendo dos tokens de contexto, tokens gerados e taxas de acerto na cache, os pedidos podem demorar até 29 minutos.

Defina um timeout inferior a esses valores, ajustado aos seus padrões de tráfego.

Para modelos de raciocínio, incluindo pedidos de streaming, todos os tokens de raciocínio são primeiro gerados e depois resumidos antes de enviar o token de primeira resposta de volta ao utilizador.

Pode modificar o parâmetro de esforço de raciocínio para controlar o número de tokens de raciocínio gerados no processo.

Resolução de problemas

Sintoma Causa Resolução
HTTP 429 Demasiados Pedidos Limite de token por minuto ou pedido por minuto ultrapassado Implemente lógica de tentativas com backoff exponencial. Use o valor do cabeçalho Retry-After.
Campos de cabeçalho de pedido HTTP 431 demasiado grandes Mais de 10 cabeçalhos personalizados enviados Reduza os cabeçalhos personalizados para 10 ou menos.
A página de quotas mostra 0 disponível Subscrição ou quota regional totalmente atribuída Transferir a quota não utilizada de outra implantação. Para aumentar o seu limite, peça um aumento da quota.
Modelo não disponível na região O modelo não é implementado nem suportado na região selecionada Verifique a disponibilidade dos modelos e escolha uma região disponível.