처리량 및 속도 제한에 대한 Copilot Studio 에이전트 배포 계획

프로덕션 환경에 배포할 수 있는 Copilot Studio 에이전트에는 라이선스와 총 메시지 양 계획만으로는 충분하지 않습니다. 처리량 계획도 필요합니다. 처리량 계획에는 트래픽이 도착하는 속도, 솔루션이 호출하는 플랫폼 서비스 및 전체 솔루션에 적용되는 제한이 포함됩니다.

이 문서는 솔루션 설계자, 제조업체 및 Power Platform 관리자가 프로덕션 트래픽, UAT(사용자 수용 테스트), 부하 테스트, B2C(기업 간) 시나리오 및 자율 워크로드에 대한 대량 Copilot Studio 배포를 준비하는 데 도움이 됩니다.

요금 프로비저닝은 라이선스 프로비저닝과 별개입니다.

운영 Copilot Studio 계획은 서로 관련되어 있지만 별개인 두 가지 업무 흐름으로 구성됩니다.

  • 라이선스 프로비저닝 은 라이선스, 크레딧, 선불 용량, 메시지 팩 및 종량제 청구와 같은 상업적 자격 및 소비를 포함합니다.
  • 처리율 프로비저닝은 스로틀링 또는 서비스 보호 제어가 적용되기 전에 트래픽이 얼마나 빠르게 처리될 수 있는지를 설명합니다.

비고

Microsoft Copilot Studio 속도 제한에 quotas 용어를 사용합니다. 더 넓은 업계 용어로는 이러한 계획 활동을 레이트 프로비저닝이라고 부르는 경우가 많습니다. 게시된 제한을 검토하고, 최대 요청 속도를 예측하고, 프로덕션 트래픽이 도착하기 전에 계획합니다.

종량제는 낮은 용량 구성에 비해 사용 가능한 한도를 늘릴 수 있지만 처리량은 무한하지 않습니다. 현재 Copilot Studio의 제한, Power Platform 요청 할당량, Power Automate 제한, Dataverse 서비스 보호 제한, 커넥터 스로틀링 규칙 및 다운스트림 API 제한을 확인하세요.

스로틀링이 발생하면 어떻게 되나요?

스로틀링은 서비스를 보호하기 위한 동작입니다. 게시된 제한, 버스트 컨트롤 또는 서비스 용량을 초과하는 트래픽 패턴으로부터 공유 서비스를 보호합니다. 정확한 증상은 제한되는 서비스에 따라 달라집니다.

한도에 도달하면 그 결과는 계획 문제 이상입니다. 요청은 제한, 지연, 차단 또는 거부될 수 있습니다. 사용자 연결 채팅에서 이 동작은 임시 서비스 중단으로 나타날 수 있습니다. 예를 들어 흐름, 커넥터, Dataverse 호출, AI 서비스 또는 다운스트림 API가 제한에 도달하여 사용자가 다음 메시지를 보내거나 에이전트를 사용할 수 없거나 사용량 제한 메시지를 받거나 실패한 단계를 경험할 수 없습니다.

에이전트의 사용 제한 오류 해결 Copilot Studio 특정 증상 및 오류 메시지에 대해 알아봅니다.

속도 제한을 측정하는 방법

속도 제한은 특정 기간 동안 서비스에서 허용할 수 있는 트래픽의 양을 측정합니다. 분당, 5분당, 10분당, 시간당, 일별, 주별 및 월별로 세분화된 창을 생각해 보세요. 월별 또는 주별 볼륨은 총수요를 추정하는 데 도움이 되지만, 스로틀링은 트래픽이 집중될 때 자주 발생하므로 속도 프로비저닝에서는 더 짧은 시간 구간이 중요합니다.

예를 들어 B2C 회사는 한 번의 집중적인 캠페인 시간 동안 대부분의 에이전트 트래픽을 수신할 수 있습니다. 주간 평균은 낮게 보일 수 있지만, 한 시간이면 여전히 충분한 처리량 압력을 만들어 제한 또는 서비스 중단을 일으킬 수 있습니다. 주간 또는 월별 수준에서 안전하게 보이는 디자인은 1시간 피크 동안에도 여전히 제한을 초과할 수 있습니다.

제한 범위 이해

제한은 개별 에이전트 수준에서만 적용되지 않습니다. 서비스에 따라 환경 수준, 도구 수준, API 수준, 커넥터 수준, 채널 수준 또는 다운스트림 서비스 수준에서 적용할 수 있습니다.

예를 들어 Copilot Studio 메시지-에이전트 제한은 Dataverse 환경별로 범위가 지정됩니다. 트래픽을 예측하는 경우 사용자 연결 채널, 통합, 자율 워크로드 및 Azure Bot Framework 기술을 포함하여 해당 환경의 에이전트에 메시지를 보내는 모든 원본을 포함합니다. Copilot Studio 할당량 및 제한 현재 값과 범위를 확인합니다.

에이전트에 요율 프로비저닝이 적용되는지 여부를 결정합니다.

모든 에이전트가 자세한 속도 프로비저닝 작업을 필요로 하는 것은 아닙니다. 소규모 대상 그룹, 예측 가능한 사용량 및 다운스트림 호출이 거의 없거나 전혀 없는 간단한 내부 FAQ 에이전트는 속도 제한에 도달할 가능성이 낮습니다. 에이전트가 분당 또는 시간당 요청 한도를 초과할 수 있는 경우에는 월간 사용량이 많지 않아 보여도 처리량 프로비저닝이 중요해집니다.

솔루션 디자인과 함께 프로젝트 초기에 예상되는 트래픽에 대해 생각해 보세요. UAT(사용자 승인 테스트) 및 부하 테스트를 시작하기 전에 팀은 에이전트 디자인, 환경, 연결된 서비스 및 다운스트림 시스템이 예상 처리량 프로필을 지원할 수 있다고 확신해야 합니다.

이 지침은 트래픽이 버스트에 도달하거나, 많은 사용자 또는 이벤트가 동시에 에이전트를 호출할 수 있거나, 각 상호 작용이 여러 플랫폼 서비스에 따라 달라지는 더 크고 집중적인 엔터프라이즈급 에이전트에 가장 중요합니다. 짧은 시작 기간, 부서 전체 이벤트, 예약된 프로세스 또는 몇 분 안에 많은 요청을 만드는 워크플로와 같이 집중된 사용 패턴이 있는 소규모 에이전트에도 적용할 수 있습니다.

B2C 및 자율 에이전트에는 초기 속도 프로비저닝이 필요합니다.

고객 관련 B2C 에이전트는 캠페인, 공개 웹 사이트, 고객 포털, 인시던트 통신, 제품 출시 또는 계절적 수요로부터 트래픽을 받을 수 있습니다. 자율 에이전트는 일정, 이벤트, 백그라운드 프로세스 또는 여러 도구 및 워크플로를 호출할 때 고주파 트래픽을 생성할 수 있습니다.

Tip

B2C 및 자율형 사용 사례를 우선적인 요율 프로비저닝 시나리오로 간주합니다. 버스트 트래픽, 여러 동시 요청 및 고주파 백그라운드 활동을 많은 직원 대면 채팅 환경보다 더 빠르게 생성할 수 있습니다.

월별 합계뿐 아니라 피크 구간도 사용하세요

에이전트가 1분 또는 1시간 안에 집중된 요청을 만들 수 있는지 여부를 묻습니다. 부하 테스트, 캠페인, 중단 응답 또는 자동화된 트리거가 짧은 기간 동안 환경을 통해 너무 많은 메시지, 생성 AI 호출, 워크플로 작업, 커넥터 호출 또는 Dataverse 요청을 푸시하는 경우 더 작은 시나리오에서는 여전히 속도 프로비저닝이 필요할 수 있습니다.

월별 볼륨은 총 수요를 예측하는 데 유용하지만 속도 프로비전에 충분하지 않습니다. RPM(분당 현재 요청), RPH(시간당 요청), 버스트 및 연결된 페이지의 일일 제한과 디자인을 비교할 수 있도록 예상 사용량을 더 작은 시간 창으로 변환합니다.

평균 트래픽 프로필과 최대 트래픽 프로필을 모두 빌드합니다. 예를 들어 대부분의 트래픽이 매일 오후 5시에서 오후 6시 사이에 발생하는 경우 시간별 피크는 해당 농도를 반영해야 합니다. 트래픽이 한 창에 집중된 경우 일일 추정치는 피크 시간의 24배가 될 필요가 없습니다.

스로틀링은 그 밖에 언제 발생할 수 있나요?

스로틀링은 다음과 같은 경우에도 발생할 수 있습니다:

  • 대규모 직원 모집단은 부서 차원의 이벤트 또는 교육과 같은 예측 가능한 피크 기간 동안 에이전트를 사용합니다.
  • 마케팅 캠페인, 서비스 중단, 출시 또는 예정된 비즈니스 이벤트는 짧은 트래픽 급증을 발생시킵니다.
  • Power Automate 흐름에는 요청량을 늘릴 수 있는 루프, 재시도, 페이지 매김 또는 자식 흐름이 포함됩니다.
  • 보고, 감사, 원격 분석 내보내기 또는 기록 캡처는 사용자 턴 경로에서 동기적으로 실행됩니다.
  • 여러 에이전트 또는 워크로드가 동일한 환경, ID, 커넥터 또는 다운스트림 API 용량을 공유합니다.
  • 부하 테스트는 프로덕션 아키텍처 또는 지원 프로세스가 처리할 준비가 된 것보다 더 빠르게 증가합니다.

관련 속도 제한을 조회하는 위치

Copilot Studio 자체 제한이 있으며 에이전트의 런타임 경로에는 자체 제한이 있는 다른 서비스가 포함될 수 있습니다. 에이전트에서 사용하는 서비스에 대한 모든 관련 제한을 검토합니다.

Copilot Studio의 제한 사항

속도 프로비전 영역 조회할 내용 현재 값을 확인할 위치 사용 방법
에이전트에 대한 메시지 에이전트로 전송된 메시지의 현재 RPM/RPH 제한 및 범위입니다. Copilot Studio 할당량 및 제한 대상 Dataverse 환경에 대해 분당 및 시간당 예상 메시지를 비교합니다.
생성형 AI 메시지 생성 오케스트레이션, 에이전트 작업, AI 도구, 에이전트 워크플로 작업 및 생성 답변에 대한 현재 제한입니다. 에이전트에게 보내는 생성형 AI 메시지 현재 게시된 한도를 기준으로 AI 비중이 높은 자율적 시나리오를 모델링합니다.
자율 트리거 노드 이벤트, 일정 또는 백그라운드 프로세스에 의해 자율 에이전트가 트리거될 때 적용되는 현재 제한입니다. Copilot Studio 할당량 및 제한 대화형 채팅 트래픽과 별도로 이벤트 기반 및 예약된 워크로드를 모델링합니다.
구독 요청 제한 Copilot Studio Copilot Studio 사용량에 적용되는 현재 Power Platform 요청 제한입니다. Copilot Studio 구독 제한 흐름, Dataverse 및 연결된 서비스에 대한 속도 제한 계획과 함께 이러한 값을 사용합니다.

고려해야 할 기타 플랫폼 제한

런타임 경로에서 가장 낮은 제한은 사용자 환경을 결정합니다. 흐름, 커넥터, Dataverse 호출, 언어 서비스 또는 외부 API가 제한되는 동안 Copilot Studio 에이전트는 자체 제한 내에 있을 수 있습니다.

비고

에이전트 요청 경로에서 다른 구성 요소를 사용하는 경우 다른 플랫폼 제한은 에이전트에 영향을 줄 수 있습니다. Power Platform, Power Automate, Dataverse, 커넥터, 언어 서비스 및 다운스트림 시스템을 포함하여 이러한 제한 사항도 고려합니다.

런타임 영역 살펴볼 내용 프로비저닝 관련 질문을 평가하세요 현재 제한을 확인할 위치
Power Platform 요청 계층 Power Automate, Copilot Studio 워크플로 호출, Dataverse 사용량, Power Apps 및 Dynamics 365 대한 요청입니다. 요청을 생성하는 사용자, 연결, 애플리케이션 사용자 또는 서비스 주체는 무엇입니까? 요청 할당이 예상되는 일일 및 최대 워크로드에 충분합니까? 요청 한도 및 할당
Power Automate 흐름 트리거, 작업, 루프, 자식 흐름, HTTP 작업, 커넥터 작업, 재시도, 페이지 매김 및 동시성. 에이전트 턴당 생성되는 작업은 몇 개입니까? 범위에서 버스트, 동시성, 트리거 및 커넥터 제한이 있나요? 플랫폼 한계 이해 및 성능 저하 방지

자동화된, 예약된 및 인스턴트 흐름의 제한
Dataverse 트랜잭션을 완료하는 데 필요한 CRUD 작업, 플러그 인, 워크플로, 할당/공유 작업, 커넥터 호출 및 시스템 작업 Dataverse 호출을 생성하는 사용자, 애플리케이션 사용자 또는 서비스 주체는 무엇입니까? 서비스 보호 제한 또는 재시도 동작이 적용될 가능성이 있나요? 서비스 보호 API 제한

Dataverse API 제한 개요
커넥터 표준 커넥터, 프리미엄 커넥터, 사용자 지정 커넥터, 커넥터별 제한 및 다운스트림 API. 병목 현상이 있는 커넥터는 무엇인가요? 다운스트림 서비스가 자체 속도 제한을 적용하나요? 커넥터의 API 처리량 제한

Power Automate 커넥터 참조
CLU(대화형 언어 이해) 및 AI 서비스 CLU 호출, AI 프롬프트, 검색 및 요약 작업, 모델 지원 도구, 페이로드 크기 및 서비스별 제한 각 사용자가 언어 또는 AI 서비스를 호출하나요? 재시도 또는 오케스트레이션 중에 이러한 호출이 반복 되나요? 대화형 언어 이해 제한

Copilot Studio 할당량 및 제한
외부 API 및 LOB(기간 업무) 시스템 공급업체 API, 내부 API, 데이터베이스, 미들웨어, 게이트웨이 및 사용자 지정 서비스. 다운스트림 소유자는 어떤 제한을 적용하나요? 재시도 계약, 큐 또는 백프레서 전략이 있나요? 다운스트림 서비스 소유자의 현재 제한, SLA(서비스 수준 계약) 및 지원 프로세스를 사용합니다.

처리량 압력을 줄이기 위한 디자인

요율 인상을 가장 먼저 고려하는 설계 대응으로 삼지 마세요. 먼저 에이전트 디자인을 검토하고 효율성을 최적화합니다. 에이전트가 항목을 조회해야 하는 경우 외부 호출을 의도적으로 유지하고 API 호출을 최적화하며 Copilot Studio, Power Automate, Dataverse, 커넥터 및 다운스트림 시스템에서 불필요한 요청 볼륨을 방지합니다.

디자인이 효율적이면 트래픽이 예측 가능한 방식으로 플랫폼에 도달할 수 있도록 처리량을 제어합니다.

  • 환경 수준 제한의 경우 해당 접근 방식이 운영 설계와 일치하는 경우 여러 환경에서 에이전트를 분할하는 것이 좋습니다. 이 방법은 대용량 에이전트, 사업부, 지역 또는 자율 워크로드가 동일한 환경 범위 제한에 대해 관련 없는 워크로드와 경쟁하지 않도록 하는 데 도움이 될 수 있습니다.
  • 자율 에이전트의 경우 백그라운드 작업이 통제되지 않은 급증 형태로 유입되지 않도록 큐, 일괄 처리, 트리거 필터, 예약 처리, 재시도 제어 및 모니터링을 사용하세요.
  • 가능한 경우 예약, 보고, 감사 내보내기 및 원격 분석 작업을 대화형 채팅 경로 외부로 이동합니다.
  • 부하 테스트 결과 및 프로덕션 원격 분석을 검토하여 요청이 집중되는 위치를 확인한 다음, 더 높은 제한을 요청하기 전에 에이전트, 흐름, 커넥터 및 다운스트림 API를 조정합니다.

자율 에이전트는 요청을 큐에 대기시키고 트리거 속도를 제어하여 강력한 예측 가능성과 관찰 가능성으로 할당된 용량의 사용을 최대화하기 위해 고유하게 배치됩니다.

기본 속도 제한으로 충분하지 않은 경우 수행할 일

피크 트래픽 추정치에서 에이전트 또는 연결된 서비스가 현재 공개된 한도를 초과할 수 있는 것으로 나타나면 UAT, 부하 테스트 또는 프로덕션 배포 전에 처리량 프로비저닝 지원 절차를 시작하십시오. 첫 번째 프로덕션 실패를 기다리지 마세요.

비고

Copilot Studio 모든 고객의 서비스를 보호하기 위해 속도 제한이 적용된 SaaS 서비스입니다. 적절한 근거를 통해 엔지니어링은 승인된 시나리오에 대한 사용자 지정 제한을 사용하도록 설정할 수 있습니다.

지원 요청 열기

관리자는 Power Platform 관리 센터에서 지원을 요청할 수 있습니다.

티켓을 일찍 열고 사용 가능한 최상의 추정치를 포함합니다. 더 많은 세부 정보를 제공할수록 검토 프로세스가 더 쉬워질 것입니다. 디자인이 구체화되거나 부하 테스트가 관찰된 데이터를 제공함에 따라 요청을 업데이트합니다.

포함할 핵심 정보

정보 Description
환경 ID 에이전트가 실행되는 Dataverse 환경입니다.
에이전트 이름 또는 식별자 요청의 영향을 받는 에이전트입니다.
비즈니스 영향 기본 제한만으로는 충분하지 않은 경우 심각한 영향을 줍니다.
알려진 정보 시나리오, 채널, 시작 컨텍스트, 비즈니스 중요도 및 B2C, 자율, 직원 연결 또는 내부 전용 여부에 대해 알려진 내용입니다.
에이전트 스냅샷 검토자가 에이전트 구성, 디자인, 연결된 서비스 및 관련 설정을 이해하는 데 도움이 되는 스냅샷 또는 내보내기입니다.
에이전트 디자인 토픽, 생성형 AI 사용, 지식 소스, 작업, 흐름, 커넥터, Dataverse 호출 및 에이전트에서 사용하는 외부 API에 대한 개요
평균 트래픽 예측 시간별, 일별, 주별 또는 월별 예상 평균 트래픽
최고 트래픽 추정치 알려진 경우 예상 최대 메시지 수, 세션 수, 생성형 AI 호출 수, 흐름 작업 수, 커넥터 호출 수, Dataverse 요청 수 및 외부 API 호출 수.

도움이 될 수 있는 자세한 정보

정보 Description
날짜 범위 요청된 증가에 대한 시작 및 종료 날짜입니다. 부하 테스트 사용자 승인 테스트와 프로덕션 날짜 범위(다른 경우)를 구분합니다.
최고 패턴 최대 기간, 표준 시간대, 예상 버스트 드라이버 및 트래픽이 짧은 일일 창에 집중되는지 여부.
세션 프로필 동시 세션, 평균 및 최고 세션 길이, 세션당 메시지 및 세션당 질문
일반적인 세션 예제 대표적인 사용자 경로, 수행된 일반적인 단계, 사용된 도구 및 사용 가능한 경우 샘플 세션 ID입니다.
런타임 경로 상호 작용별 흐름, 작업, AI 프롬프트, 지식 호출, Dataverse 요청, 커넥터 및 API.
기능 수준 피크 확인 가능한 경우 에이전트, 기능, 사용자, 환경, 커넥터, 분, 시간 및 일별 최대 볼륨입니다.
검토가 필요한 제품 요청에 Copilot Studio, Power Platform 요청 할당, Power Automate, 커넥터, Dataverse, CLU/AI 서비스 또는 외부 API가 포함되는지 여부입니다.
증거 샘플 세션 ID, 오류, 상관 관계 ID, 로그, 부하 테스트 결과 또는 프로덕션 관찰.
해결 방법 처리량 압력을 줄이기 위해 이미 시도한 내용을 요약합니다. 디자인 검토, 최적화된 외부 호출, 환경 세분화, 일괄 처리, 큐에 대기, 트리거 필터링, 일정 예약, 워크로드 배포 및 이미 적용된 기타 최적화를 포함하여 처리량 압력 지침을 줄이기 위해 디자인을 참조하세요.

Important

처리량 증가는 보장되지 않습니다. Microsoft 지원 시나리오, 환경, 요청된 날짜 범위, 예상 트래픽, 자격, 현재 제한 및 서비스 용량에 따라 요청을 검토합니다.