적용 대상: 모든 API Management 계층
정책은 llm-semantic-cache-store 구성된 외부 캐시에 대한 채팅 완료 API 요청에 대한 응답을 캐시합니다. 응답 캐싱은 백엔드 언어 모델 API에 부과되는 대역폭과 처리 요구사항을 줄이고, API 소비자가 인식하는 지연 시간을 낮춥니다.
참고 항목
- 이 정책에는 해당하는 대규모 언어 모델 API 요청에 대한 캐시된 응답 가져오기 정책이 있어야 합니다.
- 의미 체계 캐싱을 사용하도록 설정하는 필수 구성 요소 및 단계는 Azure API Management에서 LLM API에 대한 의미 체계 캐싱 사용을 참조하세요.
- 의미 체계 캐싱은 유사성(정확히 일치하지 않음)에 따라 응답을 반환하므로 현재 요청에 대해 정확하지 않거나 오래되거나 안전하지 않은 응답을 표시할 수 있습니다. 워크로드에 대해 이 기능을 신중하게 평가하고 보호 기능을 포함합니다.
참고 항목
정책 문에 제공된 순서대로 정책의 요소 및 자식 요소를 설정합니다. API Management 정책을 설정하거나 편집하는 방법에 대해 자세히 알아봅니다.
지원되는 모델 API
이 정책은 다음 API 스키마 중 하나를 준수하는 API Management에 추가된 LLM API에서 작동합니다.
- OpenAI 채팅 완료 또는 응답 API
- Anthropic 메시지 API(현재 API Management v2 계층에서 지원됨)
- 구글 버텍스 AI API
정책 문
<llm-semantic-cache-store duration="seconds" cache-response="true | false" />
특성
| 특성 | 설명 | 필수 항목 | 기본값 |
|---|---|---|---|
| 기간 | 캐시된 항목의 TTL(Time-to-Live)로 초 단위로 지정합니다. 정책 식이 허용됩니다. | 예 | 해당 없음 |
| cache-response | 현재 HTTP 응답을 캐시하려면 true로 설정합니다. 이 특성을 생략하면 상태 코드가 200 OK인 HTTP 응답만 캐시됩니다. 정책 식이 허용됩니다. |
No | false |
사용
사용법 참고 사항
- 이 정책은 정책 섹션에서 한 번만 사용할 수 있습니다.
- 캐시 조회가 실패하면 캐시 관련 작업을 사용하는 API 호출에서 오류가 발생하지 않고 캐시 작업이 성공적으로 완료됩니다.
- 캐시 조회 직후 에 속도 제한 정책(또는 키별 속도 제한 정책)을 구성하는 것이 좋습니다. 이렇게 하면 캐시를 사용할 수 없는 경우 백 엔드 서비스가 오버로드되지 않도록 할 수 있습니다.
예제
해당 llm-semantic-cache-lookup 정책이 있는 예
다음 예제에서는 정책과 함께 llm-semantic-cache-lookup 정책을 사용하여 llm-semantic-cache-store 유사성 점수 임계값이 0.05인 의미상 유사한 캐시된 응답을 검색하는 방법을 보여 줍니다. 캐시된 값은 호출자의 구독 ID로 분할됩니다.
<policies>
<inbound>
<base />
<llm-semantic-cache-lookup
score-threshold="0.05"
embeddings-backend-id ="llm-backend"
embeddings-backend-auth ="system-assigned" >
<vary-by>@(context.Subscription.Id)</vary-by>
</llm-semantic-cache-lookup>
<rate-limit calls="10" renewal-period="60" />
</inbound>
<outbound>
<llm-semantic-cache-store duration="60" />
<base />
</outbound>
</policies>
관련 정책
관련 콘텐츠
정책 작업에 대한 자세한 내용은 다음을 참조하세요.
- 자습서: API 변환 및 보호
- 정책 문 및 해당 설정에 대한 전체 목록에 대한 정책 참조
- 정책 식
- 정책 설정 또는 편집
- 정책 구성 재사용
- 정책 코드 조각 리포지토리
- 폴리시 샘플 리포지토리
- Azure API Management 정책 도구 키트
- Copilot 지원을 받아 정책을 만들고, 설명하며, 문제를 해결하세요.