Planejar as implantações de agentes do Copilot Studio para taxa de transferência e limites de taxa

Os agentes de Copilot Studio prontos para produção precisam de mais do que licenciamento e planejamento total de volume de mensagens. Eles também precisam de planejamento de capacidade. O planejamento de throughput abrange a velocidade com que o tráfego chega, quais serviços de plataforma a solução aciona e quais limites se aplicam em toda a solução.

Este artigo ajuda arquitetos de soluções, criadores e administradores do Power Platform a preparar implantações de Copilot Studio de alto volume para tráfego de produção, UAT (teste de aceitação do usuário), teste de carga, cenários de B2C (empresa para cliente) e cargas de trabalho autônomas.

O provisionamento de taxa é separado do provisionamento de licenças

O planejamento de produção do Copilot Studio tem dois fluxos de trabalho relacionados, mas separados:

  • O provisionamento de licenças abrange direitos comerciais e consumo, como licenças, créditos, capacidade pré-paga, pacotes de mensagens e cobrança paga conforme o uso.
  • Taxa de provisionamento refere-se à rapidez com que o tráfego pode ser processado antes que a limitação ou os controles de proteção do serviço sejam aplicados.

Observação

Microsoft usa o termo quotas para os limites de taxa do Copilot Studio. No vocabulário mais amplo do setor, essa atividade de planejamento geralmente é chamada de provisionamento de taxas. Examine os limites publicados, estime as taxas de solicitação de pico e planeje antes que o tráfego de produção chegue.

O pagamento conforme o uso pode aumentar os limites disponíveis em comparação com as configurações de menor capacidade, mas a taxa de transferência não é infinita. Verifique os limites atuais do Copilot Studio, as alocações de solicitações do Power Platform, os limites do Power Automate, os limites de proteção de serviço do Dataverse, as regras de limitação de conectores e os limites de APIs downstream.

O que acontece quando há limitação?

Limitação é um comportamento de proteção de serviço. Ele protege os serviços compartilhados contra padrões de tráfego que excedem limites publicados, controles de intermitência ou capacidade de serviço. O sintoma exato depende de qual serviço é limitado.

Quando um limite é atingido, a consequência é mais do que uma questão de planejamento. As solicitações podem ser limitadas, atrasadas, bloqueadas ou rejeitadas. Em chats voltados para o usuário, esse comportamento pode aparecer como uma interrupção temporária do serviço. Por exemplo, o usuário pode não conseguir enviar a próxima mensagem, receber uma mensagem de agente indisponível ou de limite de uso, ou ter uma etapa com falha porque um fluxo, conector, chamada do Dataverse, serviço de IA ou API downstream atingiu seu limite.

Saiba mais sobre sintomas e mensagens de erro específicos do Copilot Studio em Resolva erros de limite de uso em agentes.

Como os limites de taxa são medidos

Os limites de taxa medem a quantidade de tráfego que um serviço pode aceitar durante uma janela de tempo específica. Pense nessas janelas granularmente: por minuto, por cinco minutos, por 10 minutos, por hora, por dia, por semana e por mês. O volume mensal ou semanal ajuda a estimar a demanda total, mas intervalos menores são importantes para o provisionamento da taxa, porque a limitação de taxa geralmente decorre da concentração de tráfego.

Por exemplo, uma empresa B2C pode receber a maior parte de seu tráfego de agente durante uma hora de campanha focada. A média semanal pode parecer baixa, mas essa única hora ainda pode criar pressão de taxa de transferência suficiente para causar limitação ou interrupções de serviço. Um design que parece seguro no nível semanal ou mensal ainda pode exceder os limites durante um pico de uma hora.

Entender o escopo dos limites

Os limites não se aplicam apenas no nível de agente individual. Dependendo do serviço, eles podem ser aplicados no nível do ambiente, da ferramenta, da API, do conector, do canal ou do serviço subsequente.

Por exemplo, os limites de mensagens para agente do Copilot Studio se aplicam por ambiente do Dataverse. Ao estimar o tráfego, inclua todas as fontes que enviam mensagens aos agentes nesse ambiente, incluindo canais voltados para o usuário, integrações, cargas de trabalho autônomas e habilidades do Bot Framework Azure. Verifique os valores e o escopo atuais em Copilot Studio cotas e limites.

Decida se o provisionamento de tarifas se aplica ao seu agente

Nem todo agente precisa de um trabalho detalhado de configuração de tarifas. É improvável que um agente simples de FAQ interno, com um público pequeno, uso previsível e poucas ou nenhuma chamada subsequente, esbarre em limites de taxa. O provisionamento de taxa torna-se importante quando um agente pode exceder os limites de solicitações por minuto ou por hora, mesmo que o volume mensal pareça baixo.

Pense no tráfego esperado no início do projeto, juntamente com o design da solução. Antes do início do teste de aceitação do usuário (UAT) e do teste de carga, a equipe deve ter certeza de que o design do agente, o ambiente, os serviços conectados e os sistemas downstream podem dar suporte ao perfil de taxa de transferência esperado.

Essa orientação é mais importante para agentes maiores e mais intensivos de nível empresarial, em que o tráfego pode chegar em intermitências, muitos usuários ou eventos podem invocar o agente ao mesmo tempo ou cada interação depende de vários serviços de plataforma. Ele também pode se aplicar a agentes menores com padrões de uso concentrados, como uma janela de inicialização curta, um evento de todo o departamento, um processo agendado ou um fluxo de trabalho que cria muitas solicitações em alguns minutos.

B2C e agentes autônomos exigem provisionamento antecipado de tarifas

Os agentes B2C voltados para o cliente podem receber tráfego de campanhas, sites públicos, portais de clientes, comunicações de incidentes, lançamentos de produtos ou demanda sazonal. Os agentes autônomos podem gerar tráfego de alta frequência com base em agendas, eventos, processos em segundo plano ou quando chamam várias ferramentas e fluxos de trabalho.

Dica

Trate os casos de uso B2C e autônomos como cenários principais de provisionamento de tarifas. Eles podem gerar tráfego de intermitência, várias solicitações simultâneas e atividade em segundo plano de alta frequência mais rapidamente do que muitas experiências de chat voltadas para funcionários.

Use períodos de pico, não apenas totais mensais

Pergunte se o agente pode criar solicitações concentradas em um minuto ou hora. Mesmo um cenário menor ainda pode exigir provisionamento de taxa se um teste de carga, uma campanha, uma resposta a uma interrupção ou um gatilho automatizado fizer com que mensagens, chamadas de IA generativa, ações de fluxo de trabalho, chamadas de conectores ou solicitações ao Dataverse sejam enviadas pelo ambiente em excesso durante uma janela curta.

O volume mensal é útil para estimar a demanda total, mas não é suficiente para provisionamento de taxa. Converta o uso esperado em janelas de tempo menores para que você possa comparar o design com as solicitações atuais por minuto (RPM), solicitações por hora (RPH), intermitência e limites diários das páginas vinculadas.

Crie um perfil de tráfego médio e um perfil de tráfego de pico. Por exemplo, se a maioria do tráfego ocorrer todos os dias entre 17h e 18h, o pico por hora deverá refletir essa concentração. A estimativa diária não precisa ser 24 vezes a hora de pico se o tráfego estiver concentrado em uma janela.

Em que outros casos a limitação pode ocorrer?

A limitação também pode ocorrer quando:

  • Uma grande população de funcionários usa o agente durante uma janela de pico previsível, como um evento ou treinamento em todo o departamento.
  • Uma campanha de marketing, interrupção, lançamento ou evento de negócios agendado cria um pequeno pico de tráfego.
  • Os fluxos do Power Automate incluem loops, novas tentativas, paginação ou fluxos filho que ampliam o volume de solicitações.
  • A geração de relatórios, a auditoria, a exportação de telemetria ou a captura de transcrição ocorre de forma síncrona no fluxo do turno do usuário.
  • Vários agentes ou cargas de trabalho compartilham o mesmo ambiente, identidade, conector ou capacidade de API downstream.
  • Os testes de carga aumentaram mais rapidamente do que a arquitetura de produção ou o processo de suporte estavam preparados para suportar.

Onde procurar limites de taxa relevantes

Copilot Studio tem seus próprios limites e o caminho de runtime do agente pode incluir outros serviços com seus próprios limites. Examine todos os limites relevantes para os serviços que seu agente usa.

limites de Copilot Studio

Área de provisionamento de tarifas O que pesquisar Onde verificar os valores atuais Como usar
Mensagens para um agente Limite de RPM/RPH atual e escopo para mensagens enviadas ao agente. Copilot Studio cotas e limites Compare as mensagens esperadas por minuto e por hora para o ambiente do Dataverse de destino.
Mensagens de IA generativas Limite atual para orquestração generativa, ações de agente, ferramentas de IA, ações de fluxo de trabalho do agente e respostas generativas. Mensagens de IA generativas para um agente Modele cenários autônomos e com uso intensivo de IA em relação aos limites atualmente publicados.
Nós de gatilho autônomo Limites atuais que se aplicam quando um agente autônomo é disparado por eventos, agendas ou processos em segundo plano. Copilot Studio cotas e limites Modele cargas de trabalho agendadas e controladas por eventos separadamente do tráfego de chat interativo.
Copilot Studio limites de solicitação de assinatura Limites de solicitação atuais do Power Platform que se aplicam ao uso de Copilot Studio. Copilot Studio limites de assinatura Use estes valores em conjunto com o planejamento de limites de taxa para fluxos, Dataverse e serviços conectados.

Outros limites de plataforma a serem considerados

O limite mais baixo no caminho do runtime determina a experiência do usuário. Um agente do Copilot Studio pode estar dentro de seus próprios limites enquanto um fluxo, conector, chamada do Dataverse, serviço de idioma ou API externa é limitado.

Observação

Outros limites de plataforma poderão afetar o agente se ele usar outros componentes no caminho de solicitação do agente. Leve esses limites em consideração também, incluindo o Power Platform, Power Automate, Dataverse, conectores, serviços de linguagem e sistemas downstream.

Área de execução O que observar Perguntas sobre provisionamento de taxa Onde verificar os limites atuais
Plano de solicitação do Power Platform Solicitações no Power Automate, chamadas de fluxo de trabalho do Copilot Studio, uso do Dataverse, Power Apps e Dynamics 365. Qual usuário, conexão, usuário do aplicativo ou entidade de serviço gera as solicitações? As alocações de requisições são suficientes para a carga de trabalho diária e de pico esperada? Limites e alocações de solicitações
fluxos do Power Automate Gatilhos, ações, loops, fluxos filho, ações HTTP, ações de conector, tentativas, paginação e simultaneidade. Quantas ações são criadas por turno de agente? Os limites de intermitência, simultaneidade, gatilho e conector estão no escopo? Entenda os limites da plataforma e evite a limitação

Limites de fluxos automatizados, agendados e instantâneos
Dataverse Operações CRUD, plug-ins, fluxos de trabalho, operações de atribuição e compartilhamento, chamadas a conectores e operações do sistema necessárias para concluir transações. Quais usuários, usuários de aplicativos ou entidades de serviço geram chamadas do Dataverse? É provável que os limites de proteção do serviço ou o comportamento de nova tentativa sejam aplicados? Limites de API da proteção de serviço

Visão geral dos limites de API do Dataverse
Conectores Conectores padrão, conectores premium, conectores personalizados, limitação específica do conector e APIs subsequentes. Qual conector é o gargalo? O serviço downstream impõe seu próprio limite de taxa? Limites de taxa de transferência de API em conectores

Referência do conector do Power Automate
CLU (reconhecimento vocal de conversa) e serviços de IA Chamadas de CLU, prompts de IA, operações de pesquisa e resumo, ferramentas com suporte de modelo, tamanho da carga e limites específicos do serviço. Cada interação do usuário chama um serviço de linguagem ou de IA? Essas chamadas são repetidas durante novas tentativas ou orquestração? Limites de compreensão da linguagem conversacional

Copilot Studio cotas e limites
APIs externas e sistemas de linha de negócios APIs de fornecedor, APIs internas, bancos de dados, middleware, gateways e serviços personalizados. Qual limite o proprietário a jusante impõe? Há uma estratégia de repetição de contrato, fila ou controle de pressão? Use os limites atuais do proprietário do serviço downstream, o SLA (contrato de nível de serviço) e o processo de suporte.

Projetado para reduzir a pressão sobre a taxa de transferência

Não faça dos aumentos de taxa sua primeira resposta de design. Primeiro, revise o design do agente e otimize a eficiência. Se o agente precisar pesquisar algo, mantenha chamadas externas intencionais, otimize as chamadas à API e evite o volume de solicitação desnecessário em Copilot Studio, Power Automate, Dataverse, conectores e sistemas downstream.

Depois que o design for eficiente, controle a taxa de transferência para que o tráfego atinja a plataforma de maneira previsível:

  • Para limites de nível de ambiente, considere dividir agentes em vários ambientes se essa abordagem corresponder ao seu design operacional. Essa abordagem pode ajudar a evitar que agentes com alto volume, unidades de negócios, regiões ou cargas de trabalho autônomas concorram com cargas de trabalho não relacionadas pelos mesmos limites definidos no escopo do ambiente.
  • Para agentes autônomos, use filas, envio em lote, filtros de acionamento, processamento agendado, controles de nova tentativa e monitoramento para que o trabalho em segundo plano não chegue de uma só vez, de forma descontrolada.
  • Mova o trabalho agendado, de geração de relatórios, de exportação de auditoria e de telemetria para fora do fluxo do chat interativo, quando possível.
  • Examine os resultados do teste de carga e a telemetria de produção para identificar onde as solicitações se concentram e ajuste o agente, os fluxos, os conectores e as APIs downstream antes de solicitar limites mais altos.

Os agentes autônomos estão em uma posição única para maximizar o uso de sua capacidade alocada, com previsibilidade e observabilidade robustas, ao enfileirar solicitações e controlar suas taxas de acionamento.

O que fazer se os limites de taxa padrão não forem suficientes

Se a estimativa de pico de tráfego indicar que o agente ou qualquer serviço conectado pode ultrapassar os limites atualmente publicados, inicie o processo de suporte para provisionamento de taxa antes do UAT, do teste de carga ou do lançamento em produção. Não aguarde a primeira falha de produção.

Observação

Copilot Studio é um serviço SaaS com limites de taxa em vigor para proteger o serviço para todos os clientes. Com a justificativa adequada, a engenharia pode habilitar limites personalizados para cenários aprovados.

Abrir uma solicitação de suporte

Os administradores podem solicitar suporte no Centro de administração do Power Platform.

Abra o tíquete antecipadamente e inclua as melhores estimativas disponíveis. Quanto mais detalhes você fornecer, mais fácil será o processo de revisão. Atualize a solicitação conforme o design é refinado ou o teste de carga fornece dados observados.

Informações principais a serem incluídas

Informação Description
ID do Ambiente O ambiente do Dataverse em que o agente é executado.
Nome ou identificador do agente O agente afetado pela solicitação.
Impacto nos negócios Impacto crítico se os limites padrão não forem suficientes.
Informações conhecidas O que se sabe sobre o cenário, o canal, o contexto de inicialização, a criticidade dos negócios e se ele é B2C, autônomo, voltado para funcionários ou somente interno.
Instantâneo do agente Uma captura ou exportação que ajuda os revisores a entender a configuração, o design, os serviços conectados e as configurações relevantes do agente.
Projeto do agente Descrição de alto nível de tópicos, uso de IA generativo, fontes de conhecimento, ações, fluxos, conectores, chamadas do Dataverse e APIs externas usadas pelo agente.
Estimativa média de tráfego Tráfego médio esperado por hora, dia, semana ou mês.
Estimativa de tráfego de pico Mensagens de pico esperadas, sessões, chamadas de IA generativa, ações de fluxo, chamadas de conector, solicitações do Dataverse e chamadas a APIs externas, quando conhecidas.

Mais detalhes que podem ajudar

Informação Description
Intervalo de datas Data de início e término do aumento solicitado. Separar o teste de carga, o teste de aceitação do usuário e as faixas de datas de produção, se forem diferentes.
Padrão de pico Janelas de pico, fusos horários, fatores esperados que geram picos e se o tráfego está concentrado em um curto período diário.
Perfil de sessão Sessões simultâneas, comprimento médio e de pico da sessão, mensagens por sessão e perguntas por sessão.
Exemplos típicos de sessão Caminhos de usuário representativos, etapas típicas executadas, ferramentas usadas e IDs de sessão de exemplo quando disponíveis.
Caminho do runtime Fluxos, ações, prompts de IA, consultas à base de conhecimento, solicitações ao Dataverse, conectores e APIs por interação.
Picos em nível de funcionalidade Volume de pico por agente, recurso, usuário, ambiente, conector, minuto, hora e dia em que conhecido.
Produtos que precisam de revisão Se a solicitação envolve Copilot Studio, alocações de solicitações do Power Platform, Power Automate, conectores, Dataverse, serviços de CLU/IA ou APIs externas.
Provas IDs de sessão de exemplo, erros, IDs de correlação, logs, resultados de teste de carga ou observações de produção.
Atenuações Resuma o que você já tentou fazer para reduzir a pressão sobre a taxa de transferência. Consulte as orientações Design para reduzir a pressão de taxa de transferência, incluindo revisão de design, chamadas externas otimizadas, segmentação de ambientes, envio em lote, enfileiramento, filtragem de gatilhos, agendamento, distribuição da carga de trabalho e outras otimizações já implementadas.

Importante

Um aumento de taxa de transferência não é garantido. Suporte da Microsoft revisa solicitações com base no cenário, ambiente, intervalo de datas solicitado, tráfego esperado, qualificação, limites atuais e capacidade de serviço.