Planear implementações do agente do Copilot Studio para limites de débito e de taxa

Os agentes do Copilot Studio aptos para produção precisam de mais do que o licenciamento e o planeamento do volume total de mensagens. Também precisam de planeamento da capacidade de processamento. O planeamento de throughput abrange a rapidez com que o tráfego chega, que plataforma serve as chamadas da solução e quais os limites que se aplicam em toda a solução.

Este artigo ajuda arquitetos de soluções, criadores e administradores do Power Platform a preparar implementações de grande volume do Copilot Studio para tráfego de produção, testes de aceitação do utilizador (UAT), testes de carga, cenários business-to-customer (B2C) e cargas de trabalho autónomas.

A provisão de tarifas é separada da provisão de licenças

O planeamento da Production Copilot Studio tem dois processos de trabalho relacionados, mas separados:

  • Aprovisionamento de licenças, que abrange os direitos comerciais e consumo, como licenças, créditos, capacidade pré-paga, pacotes de mensagens e faturação pay as you go.
  • A provisão de tarifas cobre a rapidez com que o tráfego pode ser processado antes de se aplicarem controlos de limitação ou proteção de serviço.

Note

A Microsoft utiliza o termo quotas para limites de taxa do Copilot Studio. No vocabulário mais amplo da indústria, esta atividade de planeamento é frequentemente chamada de provisão de tarifas. Revise os limites publicados, estime as taxas de pico de pedido e planeie antes da chegada do tráfego de produção.

O pagamento conforme a utilização pode aumentar os limites disponíveis face a configurações de menor capacidade, mas a taxa de transferência não é infinita. Verifique os limites atuais do Copilot Studio, as alocações de Solicitação de Power Platform, os limites do Power Automate, os limites de proteção do serviço do Dataverse, as regras de limitação de conectores e os limites das APIs a jusante.

O que acontece quando ocorre a limitação?

A limitação é um comportamento de proteção de serviço. Protege os serviços partilhados contra padrões de tráfego que excedam os limites publicados, controlos de rajadas ou capacidade de serviço. O sintoma exato depende do serviço que está sujeito a limitação.

Quando se atinge um limite, a consequência é mais do que uma questão de planeamento. Os pedidos podem ser limitados, atrasados, bloqueados ou rejeitados. Em conversas dirigidas ao utilizador, este comportamento pode manifestar-se como uma interrupção temporária do serviço. Por exemplo, o utilizador pode não conseguir enviar a mensagem seguinte, receber uma mensagem de indisponibilidade do agente ou de limite de utilização, ou deparar-se com a falha de uma etapa porque um fluxo, conector, chamada do Dataverse, serviço de IA ou API a jusante atingiu o respetivo limite.

Aprenda sobre sintomas e mensagens de erro específicos de Copilot Studio em Resolver erros de limite de utilização em agentes.

Como são medidos os limites de taxa

Os limites de tarifa medem quanto tráfego um serviço pode aceitar durante uma janela de tempo específica. Pense nestas janelas de forma detalhada: por minuto, por cinco minutos, por 10 minutos, por hora, por dia, por semana e por mês. O volume mensal ou semanal ajuda a estimar a procura total, mas períodos mais curtos são importantes para o aprovisionamento de taxas, porque a limitação resulta frequentemente de tráfego concentrado.

Por exemplo, uma empresa B2C pode receber a maior parte do tráfego do seu agente durante uma única hora de campanha focada. A sua média semanal pode parecer baixa, mas essa única hora pode ainda assim criar pressão de débito suficiente para causar limitação ou interrupções de serviço. Um design que parece seguro a nível semanal ou mensal pode ainda exceder os limites durante um pico de uma hora.

Compreender o âmbito dos limites

Os limites não se aplicam apenas ao nível individual do agente. Dependendo do serviço, podem aplicar-se ao nível do ambiente, ao nível da ferramenta, ao nível da API, ao nível do conector, ao nível do canal ou ao nível do serviço a jusante.

Por exemplo, os limites de mensagens para agente do Copilot Studio são definidos pelo âmbito do ambiente Dataverse. Ao estimar o tráfego, inclua todas as fontes que enviam mensagens para agentes nesse ambiente, incluindo canais voltados para o utilizador, integrações, cargas de trabalho autónomas e competências no Azure Bot Framework. Verifique os valores atuais e o alcance em quotas e limites do Copilot Studio.

Decida se a provisão de tarifas se aplica ao seu agente

Nem todos os agentes precisam de trabalho detalhado de provisionamento de tarifas. Um simples agente interno de FAQ com uma audiência pequena, utilização previsível e poucas ou nenhumas chamadas a jusante dificilmente atingirá os limites de taxa. A provisão de tarifas torna-se importante quando um agente pode exceder os limites de pedidos por minuto ou de pedidos por hora, mesmo que o seu volume mensal pareça modesto.

Pense no tráfego esperado no início do projeto, juntamente com o design da solução. Antes de começarem os testes de aceitação do utilizador (UAT) e os testes de carga, a equipa deve estar confiante de que o design do agente, o ambiente, os serviços conectados e os sistemas a jusante conseguem suportar o perfil de throughput esperado.

Esta orientação é especialmente importante para agentes empresariais maiores e mais intensivos, onde o tráfego pode chegar em rajadas, muitos utilizadores ou eventos podem invocar o agente ao mesmo tempo, ou cada interação depende de múltiplos serviços de plataforma. Também pode aplicar-se a agentes mais pequenos com padrões de utilização concentrados, como uma janela de lançamento curta, um evento a nível de departamento, um processo agendado ou um fluxo de trabalho que gera muitos pedidos em poucos minutos.

Os agentes B2C e autónomos exigem um aprovisionamento antecipado de taxa

Os agentes B2C voltados para o cliente podem receber interações provenientes de campanhas, sites públicos, portais de clientes, comunicações de incidentes, lançamentos de produtos ou procura sazonal. Agentes autónomos podem gerar tráfego de alta frequência a partir de agendamentos, eventos, processos em segundo plano ou quando apelam a múltiplas ferramentas e fluxos de trabalho.

Sugestão

Considere os casos de uso B2C e os casos de uso autónomos como cenários principais de provisionamento de tarifas. Podem gerar tráfego em rajadas, múltiplos pedidos simultâneos e atividade em segundo plano de alta frequência mais rapidamente do que muitas experiências de chat direcionadas para colaboradores.

Utilize janelas de pico, não só totais mensais

Pergunte se o agente consegue criar pedidos concentrados num minuto ou numa hora. Um cenário mais pequeno pode ainda precisar de provisionamento de capacidade se um teste de carga, uma campanha, uma resposta a indisponibilidades ou um acionador automático fizer passar demasiadas mensagens, chamadas de IA generativa, ações de fluxo de trabalho, chamadas de conector ou pedidos ao Dataverse no ambiente num curto espaço de tempo.

O volume mensal é útil para estimar a procura total, mas não é suficiente para a provisão de tarifas. Converta a utilização prevista em janelas de tempo mais pequenas, para que possa comparar a conceção com os pedidos atuais por minuto (RPM), os pedidos por hora (RPH), os picos e os limites diários indicados nas páginas associadas.

Constrói tanto um perfil de tráfego médio como um perfil de tráfego de pico. Por exemplo, se a maior parte do trânsito acontecer todos os dias entre as 17h e as 18h, o pico horário deve refletir essa concentração. A estimativa diária não precisa de ser 24 vezes a hora de pico se o trânsito estiver concentrado numa única janela.

Em que outras situações pode ocorrer limitação?

A limitação também pode ocorrer quando:

  • Uma grande população de funcionários utiliza o agente durante uma janela de pico previsível, como um evento ou formação a nível de departamento.
  • Uma campanha de marketing, interrupção, lançamento ou evento empresarial agendado cria um pico curto de tráfego.
  • Os fluxos do Power Automate incluem ciclos, repetições, paginação ou fluxos subordinados que amplificam o volume de pedidos.
  • A criação de relatórios, a auditoria, a exportação de telemetria ou a captura de transcrição são executadas de forma síncrona no fluxo de interação do utilizador.
  • Múltiplos agentes ou cargas de trabalho partilham o mesmo ambiente, identidade, conector ou capacidade de API a jusante.
  • Os testes de carga aumentam o volume mais rapidamente do que a arquitetura de produção ou o processo de suporte estavam preparados para processar.

Onde consultar os limites de taxa relevantes

O Copilot Studio tem os seus próprios limites, e o percurso de execução do agente pode incluir outros serviços com os seus próprios limites. Revise todos os limites relevantes para os serviços que o seu agente utiliza.

Limites do Copilot Studio

Área de aprovisionamento de tarifas O que procurar Onde verificar os valores atuais Como utilizá-lo
Mensagens para um agente Limite atual de RPM/RPH e âmbito para mensagens enviadas ao agente. Copilot Studio quotas e limites Compare as mensagens esperadas por minuto e por hora para o ambiente Dataverse alvo.
Mensagens de IA generativa Limite atual para orquestração generativa, ações de agentes, ferramentas de IA, ações de workflow de agentes e respostas generativas. Mensagens de IA generativas para um agente Modelar cenários com forte IA e autónomos de acordo com os limites publicados atualmente.
Nodos de acionamento autónomos Limites atuais que se aplicam quando um agente autónomo é acionado por eventos, agendas ou processos em segundo plano. Copilot Studio quotas e limites Modele cargas de trabalho orientadas por eventos e agendadas separadamente do tráfego de chat interativo.
Limites de pedidos de subscrição do Copilot Studio Limites atuais de pedidos da Power Platform que se aplicam à utilização do Copilot Studio. Copilot Studio limites de subscrição Utilize estes valores em conjunto com o planeamento dos limites de taxa para fluxos, Dataverse e serviços conectados.

Outros limites de plataforma a considerar

O limite mais baixo no percurso de execução determina a experiência do utilizador. Um agente do Copilot Studio pode estar dentro dos seus próprios limites enquanto um fluxo, conector, chamada do Dataverse, serviço de linguagem ou API externa é limitado.

Note

Outros limites da plataforma podem afetar o seu agente se este utilizar outros componentes no caminho de pedido do agente. Considere também estes limites, incluindo o Power Platform, o Power Automate, o Dataverse, conectores, serviços linguísticos e sistemas a jusante.

Área de execução O que observar Questões sobre o fornecimento de tarifas Onde verificar os limites de corrente
Plano de pedidos do Power Platform Solicitações no Power Automate, chamadas de fluxos de trabalho no Copilot Studio, utilização do Dataverse, Power Apps e Dynamics 365. Qual utilizador, ligação, utilizador da aplicação ou principal do serviço gera os pedidos? As alocações de pedidos são suficientes para a carga de trabalho diária e de pico prevista? Limites de solicitações e alocações
Fluxos do Power Automate Acionadores, ações, ciclos, fluxos subordinados, ações HTTP, ações de conector, repetições, paginação e simultaneidade. Quantas ações são criadas por turno de agente? Os limites de rajada, simultaneidade, acionadores e conectores estão incluídos no âmbito? Compreender os limites da plataforma e evitar limitações

Limites dos fluxos automatizados, programados e instantâneos
Dataverse Operações CRUD, suplementos, fluxos de trabalho, operações de atribuição e partilha, chamadas ao conector e operações de sistema necessárias para concluir transações. Que utilizadores, utilizadores de aplicações ou principais de serviço geram chamadas do Dataverse? É provável que se apliquem limites de proteção do serviço ou comportamentos de repetição? Limites da API de proteção de serviços

Descrição geral dos limites da API do Dataverse
Connectors Conectores padrão, conectores premium, conectores personalizados, limitação específica de conectores e APIs a jusante. Qual conector é o gargalo? O serviço a jusante impõe o seu próprio limite de taxa? Limites de taxa de transferência da API nos conectores

Referência do conector do Power Automate
Compreensão conversacional de linguagem (CLU) e serviços de IA Chamadas CLU, pedidos à IA, operações de pesquisa e sumarização, ferramentas suportadas por modelos, tamanho da carga útil e limites específicos do serviço. Cada interação do utilizador invoca um serviço de linguagem ou de IA? Essas chamadas são repetidas durante as repetições ou durante a orquestração? Limites da compreensão da linguagem conversacional

Copilot Studio quotas e limites
APIs externas e sistemas de linha de negócio APIs de fornecedores, APIs internas, bases de dados, middleware, gateways e serviços personalizados. Que limite é que o proprietário a jusante impõe? Existe algum contrato de repetição, fila ou estratégia de backpressure? Utilize os limites atuais, o acordo de nível de serviço (SLA) e o processo de suporte do responsável pelo serviço a jusante.

Conceber para reduzir a pressão de débito

Não faça dos aumentos de taxa a sua primeira resposta de design. Primeiro, reveja a conceção do agente e otimize a eficiência. Se o agente precisar de procurar algo, mantenha as chamadas externas deliberadas, otimize as chamadas às APIs e evite um volume desnecessário de pedidos no Copilot Studio, no Power Automate, no Dataverse, nos conectores e nos sistemas a jusante.

Depois de a conceção ser eficiente, controle o fluxo para que o tráfego chegue à plataforma de modo previsível:

  • Para limites ao nível do ambiente, considere dividir agentes em múltiplos ambientes se essa abordagem corresponder ao seu design operacional. Esta abordagem pode ajudar a evitar que agentes de alto volume, unidades de negócio, regiões ou cargas de trabalho autónomas concorram com cargas de trabalho não relacionadas pelos mesmos limites definidos pelo ambiente.
  • Para agentes autónomos, utilize filas, criação de batches, filtros de acionadores, processamento agendado, controlos de repetição e monitorização, para que o trabalho em segundo plano não surja sob a forma de uma rajada descontrolada.
  • Deslocar o trabalho agendado, a elaboração de relatórios, a exportação de auditoria e a telemetria para fora do fluxo da conversa interativa, sempre que possível.
  • Revise os resultados dos testes de carga e a telemetria de produção para identificar onde os pedidos se concentram, depois ajuste o agente, os fluxos, os conectores e as APIs a jusante antes de solicitar limites mais elevados.

Os agentes autónomos estão numa posição única para maximizar a utilização da sua capacidade atribuída, com previsibilidade e observabilidade robustas, pondo os pedidos em fila de espera e controlando as respetivas taxas de acionamento.

O que fazer se os limites de taxa de incumprimento não forem suficientes

Se a estimativa de tráfego de pico indicar que o agente ou qualquer serviço ligado pode exceder os limites atualmente publicados, inicie o processo de suporte ao aprovisionamento da taxa antes do UAT, dos testes de carga ou do lançamento em produção. Não espere pela primeira falha de produção.

Note

O Copilot Studio é um serviço SaaS com limites de tarifa para proteger o serviço de todos os clientes. Com justificação adequada, a engenharia pode permitir limites personalizados para cenários aprovados.

Abrir um pedido de suporte

Os administradores podem solicitar apoio ao centro de administração da Power Platform.

Abra o bilhete cedo e inclua as melhores estimativas disponíveis. Quanto mais detalhes fornecer, mais fácil será o processo de avaliação. Atualize o pedido à medida que o design é refinado ou os testes de carga fornecem dados observados.

Informação central a incluir

Informação Description
ID do Ambiente O ambiente Dataverse onde o agente corre.
Nome ou identificador do agente O agente afetado pelo pedido.
Impacto comercial Impacto crítico se os limites padrão não forem suficientes.
Informação conhecida O que se sabe sobre o cenário, canal, contexto de lançamento, criticidade do negócio e se é B2C, autónomo, voltado para o colaborador ou apenas interno.
Instantâneo do agente Um instantâneo ou exportação que ajuda os revisores a compreender a configuração do agente, o design, os serviços ligados e as definições relevantes.
Design do agente Descrição de alto nível de tópicos, uso de IA generativa, fontes de conhecimento, ações, fluxos, conectores, chamadas Dataverse e APIs externas usadas pelo agente.
Estimativa média de tráfego Tráfego médio esperado por hora, dia, semana ou mês.
Estimativa de tráfego de pico Mensagens de pico esperadas, sessões, chamadas de IA generativa, ações de fluxo, chamadas de conectores, pedidos Dataverse e chamadas de API externas quando conhecidas.

Mais detalhes que podem ajudar

Informação Description
Intervalo de datas Data de início e fim do aumento solicitado. Separar os intervalos de datas do teste de carga, do teste de aceitação do utilizador e da produção, se forem diferentes.
Padrão de pico Janelas de pico, fusos horários, fatores previstos de geração de rajadas e se o tráfego está concentrado numa janela diária curta.
Perfil da sessão Sessões simultâneas, duração média e pico das sessões, mensagens por sessão e perguntas por sessão.
Exemplos típicos de sessões Caminhos representativos dos utilizadores, passos típicos realizados, ferramentas usadas e IDs de sessão de exemplo quando disponíveis.
Caminho de execução Fluxos, ações, pedidos de IA, chamadas de conhecimento, pedidos do Dataverse, conectores e APIs por interação.
Picos ao nível das funcionalidades Volume máximo por agente, funcionalidade, utilizador, ambiente, conector, minuto, hora e dia, onde conhecido.
Produtos a necessitar de análise Quer o pedido diga respeito ao Copilot Studio, a alocações de Solicitação de Power Platform, ao Power Automate, a conectores, ao Dataverse, a serviços CLU/IA ou a APIs externas.
Evidence Identificadores de sessão de exemplo, erros, identificadores de correlação, registos, resultados de testes de carga ou observações de produção.
Medidas de mitigação Resume o que já tentou para reduzir a pressão de rendimento. Consulte as orientações sobre Conceção para reduzir a pressão de débito, incluindo revisão da conceção, otimização das chamadas externas, segmentação de ambientes, criação de batches, colocação em fila, filtragem de acionadores, agendamento, distribuição da carga de trabalho e outras otimizações já implementadas.

Importante

Um aumento de rendimento não é garantido. O Suporte da Microsoft analisa pedidos com base no cenário, ambiente, intervalo de datas solicitado, tráfego esperado, elegibilidade, limites atuais e capacidade de serviço.