Respostas de cache para solicitações de API de modelo de linguagem grande

APLICA-SE A: Todas as camadas de gerenciamento de API

A llm-semantic-cache-store política armazena em cache as respostas às solicitações de API de conclusão de bate-papo em um cache externo configurado. A cache de resposta reduz a largura de banda e os requisitos de processamento impostos à API do modelo de linguagem de backend e diminui a latência percebida pelos consumidores da API.

Nota

Essa política deve ter uma política correspondente de Obter respostas em cache para solicitações de API de modelo de linguagem grande.
Para obter os pré-requisitos e as etapas para habilitar o cache semântico, consulte Habilitar cache semântico para APIs LLM no Gerenciamento de API do Azure.
Como o cache semântico devolve respostas baseadas na semelhança (não na correspondência exata), pode revelar respostas incorretas, desatualizadas ou inseguras para o pedido atual. Avalie cuidadosamente esta funcionalidade para a sua carga de trabalho e inclua salvaguardas.

Nota

Defina os elementos da política e os elementos filho na ordem fornecida na declaração de política. Saiba mais sobre como definir ou editar políticas de Gerenciamento de API.

APIs de modelos suportadas

Esta política funciona com APIs LLM adicionadas à Gestão de APIs que cumprem um dos seguintes esquemas de API:

API de Conclusão ou Respostas do Chat OpenAI
Anthropic Messages API (atualmente suportada nos níveis de API Management v2)
Google Vertex AI API

Declaração de política

<llm-semantic-cache-store duration="seconds" cache-response="true | false" />

Atributos

Atributo	Descrição	Necessário	Predefinição
Duração	Tempo de vida útil das entradas armazenadas em cache, especificado em segundos. São permitidas expressões de política.	Sim	N/A
cache-resposta	Defina como `true` armazenar em cache a resposta HTTP atual. Se o atributo for omitido, somente as respostas HTTP com o código `200 OK` de status serão armazenadas em cache. São permitidas expressões de política.	No	`false`

Utilização

Secções políticas: saída
Escopos da política: global, produto, API, operação
Gateways: clássico, v2, consumo, auto-hospedado

Notas de utilização

Esta política só pode ser utilizada uma vez numa secção de política.
Se a pesquisa de cache falhar, a chamada de API que usa a operação relacionada ao cache não gerará um erro e a operação de cache será concluída com êxito.
Recomendamos configurar uma política de limite de taxa (ou política de limite de taxa por chave ) imediatamente após qualquer pesquisa de cache. Isso ajuda a evitar que o serviço de back-end fique sobrecarregado se o cache não estiver disponível.

Exemplos

Exemplo com a política llm-semantic-cache-lookup correspondente

O exemplo a seguir mostra como usar a llm-semantic-cache-lookup política junto com a llm-semantic-cache-store política para recuperar respostas em cache semanticamente semelhantes com um limite de pontuação de similaridade de 0,05. Os valores armazenados em cache são particionados pela ID de assinatura do chamador.

Nota

Adicione uma política de limite de taxa (ou política de limite de taxa por chave ) após a pesquisa de cache para ajudar a limitar o número de chamadas e evitar sobrecarga no serviço backend caso a cache não esteja disponível.

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Para obter mais informações sobre como trabalhar com políticas, consulte:

Tutorial: Transforme e proteja sua API
Referência de política para uma lista completa de declarações de política e suas configurações
Expressões de política
Definir ou editar políticas
Reutilizar configurações de política
Recompra de trechos de política
Exemplo de repotório
Kit de ferramentas de política de Gerenciamento de API do Azure
Obtenha assistência do Copilot para criar, explicar e resolver problemas com políticas

Comentários

Esta página foi útil?

Last updated on 2026-06-04

Respostas de cache para solicitações de API de modelo de linguagem grande

APIs de modelos suportadas

Declaração de política

Atributos

Utilização

Notas de utilização

Exemplos

Exemplo com a política llm-semantic-cache-lookup correspondente

Políticas relacionadas

Conteúdos relacionados

Comentários

Recursos adicionais