Consultar um modelo com a API Open Responses

Este artigo explica como consultar modelos de fundação usando a API Open Responses e descreve o comportamento específico do fornecedor a ter em conta quando o faz.

A API Open Responses é uma implementação aberta e multifornecedora do formato de pedido de respostas. Utiliza um input campo em vez de messages e devolve um array estruturado output . Envie pedidos para o caminho /serving-endpoints/open-responses com o nome do endpoint de disponibilização do modelo no campo model do corpo do pedido.

Note

Para modelos OpenAI, utilize diretamente a API OpenAI Responses . Esse caminho é um passthrough nativo e suporta todo o conjunto de parâmetros e ferramentas do OpenAI Responses. Este artigo aborda a Open Responses API, que funciona entre fornecedores mas suporta um conjunto de funcionalidades focado.

Exemplos de consultas

O exemplo seguinte consulta um endpoint de modelo de fundação com a API Open Responses.

curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "model": "databricks-claude-sonnet-4-5",
    "input": [
      {
        "role": "user",
        "content": "What is a mixture of experts model?"
      }
    ],
    "max_output_tokens": 256
  }' \
  https://<workspace_host>.databricks.com/serving-endpoints/open-responses

A resposta é um objeto response com uma matriz output. Para pedidos de streaming (stream: true), a resposta é um text/event-stream onde cada evento é um bloco de resposta.

Comportamento específico do prestador

O Databricks traduz o pedido de Respostas Abertas para o formato nativo de cada fornecedor. O comportamento é consistente para a maioria dos pedidos, mas aplicam-se as seguintes diferenças específicas para cada fornecedor.

Todos os fornecedores

As conversas não têm estado. previous_response_id e o armazenamento de conversas do lado do servidor não é suportado. Envia a conversa completa no input campo em cada turno.
Alguns campos específicos da OpenAI são aceites, mas ignorados em fornecedores não OpenAI. Campos como user, safety_identifier, metadata, e truncation são devolvidos na resposta para portabilidade, mas não alteram o comportamento do fornecedor.

Modelos alojados em Databricks (open source)

O suporte a funcionalidades é por modelo. A chamada de funções, raciocínio, saída estruturada e entrada de imagem estão ativadas por modelo. Um pedido que utiliza uma funcionalidade que o modelo não suporta devolve um erro. Por exemplo, um modelo que suporta raciocínio pode não suportar entrada de imagem.
A entrada de imagem deve ser um URL ou URI de dados. Forneça imagens através image_url de uma https URL ou URI data: . Referências de ficheiros (file_id) e entradas de documentos (input_file) não são suportadas.

Modelos antrópicos de Claude

A temperatura utiliza uma escala 0–2. Claude usa um intervalo nativo 0–1, por isso o Databricks reescala o valor reduzindo-o para metade —temperature: 1.0 comporta-se como 0.5.
Raciocínio de ida e volta entre turnos. Para permitir que o modelo raciocine com base no seu raciocínio anterior numa conversa de vários turnos, envie os itens reasoning devolvidos — com as suas encrypted_content inalteradas — no input do pedido seguinte. Consulte Modelos de raciocínio de consulta.
As entradas de imagem e documento devem ser URIs de dados base64. Forneça imagens através de image_url como um URI em base64 data: e documentos através de file_data como um URI em base64 data:. https URLs e file_id referências não são suportadas.
A saída estruturada tem restrições. text.format do tipo json_schema é suportado, mas json_object não é e gera um erro. A saída estruturada não pode ser combinada com streaming ou com raciocínio, e não se pode atribuir tool_choice a uma ferramenta específica ao usá-la. Consulte Saídas estruturadas no Azure Databricks.
Os tokens de raciocínio são incluídos em usage.output_tokens em vez de serem indicados separadamente.

Modelos do Google Gemini

A temperatura utiliza uma escala 0–2. O Gemini usa um intervalo nativo de 0–1, por isso o Databricks reescala o valor reduzindo-o para metade —temperature: 1.0 comporta-se como 0.5.
Raciocínio de ida e volta entre turnos. Para permitir que o modelo raciocine com base no seu raciocínio anterior numa conversa de vários turnos, envie os itens reasoning devolvidos — com as suas encrypted_content inalteradas — no input do pedido seguinte. Consulte Modelos de raciocínio de consulta.
A entrada de imagem aceita tanto https URLs como URIs de dados base64.
Os tokens de raciocínio são reportados em usage.output_tokens_details.reasoning_tokens.

Important

Chamadas de ferramentas multi-turno com Gemini requerem preservar encrypted_content. Gemini retorna um valor encrypted_content a cada item function_call que produz. Quando enviares o resultado da ferramenta de volta para o turno seguinte, deves incluir o item original function_call com o campo encrypted_content inalterado. Frameworks de agentes que reconstroem chamadas a ferramentas apenas a partir de name, arguments e call_id omitem este campo, o que faz com que o pedido subsequente seja rejeitado.

O exemplo seguinte preserva o item function_call (com o respetivo encrypted_content) ao devolver o resultado da ferramenta:

{
  "model": "databricks-gemini-2-5-pro",
  "input": [
    { "role": "user", "content": "What's the weather in San Francisco?" },
    {
      "type": "function_call",
      "call_id": "call_abc123",
      "name": "get_weather",
      "arguments": "{\"city\": \"San Francisco\"}",
      "encrypted_content": "<opaque-provider-signature>"
    },
    {
      "type": "function_call_output",
      "call_id": "call_abc123",
      "output": "{\"temp_f\": 64}"
    }
  ]
}

Tools

A API Open Responses suporta ferramentas do tipo function em vários fornecedores. Para mais detalhes e conhecer os modelos suportados, consulte Chamada de função no Azure Databricks. Para a ferramenta integrada de pesquisa web, veja pesquisa web no Azure Databricks.

Outros tipos de ferramentas incorporadas e personalizadas (por exemplo custom, , apply_patch, image_generation, e mcp) estão disponíveis apenas através da API OpenAI Responses.

Modelos suportados

A API Open Responses está disponível em vários modelos fundacionais da Databricks, incluindo Anthropic Claude, Google Gemini e modelos abertos alojados na Databricks, e o suporte estende-se a novos modelos daqui para a frente. Para consultar a lista atual de modelos disponíveis, consulte Tipos de modelos fundacionais.

O suporte a funcionalidades, como chamada de funções, raciocínio, saída estruturada e entrada de imagens, depende do modelo subjacente. Ver Comportamento específico do prestador.

Tipos de entrada suportados

O suporte de entrada depende do modelo e do fornecedor. A introdução de texto é suportada por todos os modelos. Para entrada de imagens, consulte as notas específicas de cada fornecedor em Comportamento específico de cada fornecedor e os requisitos de formato e tamanho em Consultar modelos de visão. Para tipos de entrada por modelo, veja modelos de fundação alojados em Databricks disponíveis nas APIs de Modelos de Fundação.

Recursos adicionais

Comentários

Esta página foi útil?

Last updated on 2026-06-29