Consultar um modelo com a API Open Responses

Este artigo explica como consultar modelos de fundação usando a API Open Responses e descreve o comportamento específico do fornecedor a ter em conta quando o faz.

A API Open Responses é uma implementação aberta e multifornecedora do formato de pedido de respostas. Utiliza um input campo em vez de messages e devolve um array estruturado output . Envie pedidos para o caminho /serving-endpoints/open-responses com o nome do endpoint de disponibilização do modelo no campo model do corpo do pedido.

Note

Para modelos OpenAI, utilize diretamente a API OpenAI Responses . Esse caminho é um passthrough nativo e suporta todo o conjunto de parâmetros e ferramentas do OpenAI Responses. Este artigo aborda a Open Responses API, que funciona entre fornecedores mas suporta um conjunto de funcionalidades focado.

Exemplos de consultas

O exemplo seguinte consulta um endpoint de modelo de fundação com a API Open Responses.

curl \
  -u token:$DATABRICKS_TOKEN \
  -X POST \
  -H "Content-Type: application/json" \
  -d '{
    "model": "databricks-claude-sonnet-4-5",
    "input": [
      {
        "role": "user",
        "content": "What is a mixture of experts model?"
      }
    ],
    "max_output_tokens": 256
  }' \
  https://<workspace_host>.databricks.com/serving-endpoints/open-responses

A resposta é um objeto response com uma matriz output. Para pedidos de streaming (stream: true), a resposta é um text/event-stream onde cada evento é um bloco de resposta.

Comportamento específico do prestador

O Databricks traduz o pedido de Respostas Abertas para o formato nativo de cada fornecedor. O comportamento é consistente para a maioria dos pedidos, mas aplicam-se as seguintes diferenças específicas para cada fornecedor.

Todos os fornecedores

  • As conversas não têm estado. previous_response_id e o armazenamento de conversas do lado do servidor não é suportado. Envia a conversa completa no input campo em cada turno.
  • Alguns campos específicos da OpenAI são aceites, mas ignorados em fornecedores não OpenAI. Campos como user, safety_identifier, metadata, e truncation são devolvidos na resposta para portabilidade, mas não alteram o comportamento do fornecedor.

Modelos alojados em Databricks (open source)

  • O suporte a funcionalidades é por modelo. A chamada de funções, raciocínio, saída estruturada e entrada de imagem estão ativadas por modelo. Um pedido que utiliza uma funcionalidade que o modelo não suporta devolve um erro. Por exemplo, um modelo que suporta raciocínio pode não suportar entrada de imagem.
  • A entrada de imagem deve ser um URL ou URI de dados. Forneça imagens através image_url de uma https URL ou URI data: . Referências de ficheiros (file_id) e entradas de documentos (input_file) não são suportadas.

Modelos antrópicos de Claude

  • A temperatura utiliza uma escala 0–2. Claude usa um intervalo nativo 0–1, por isso o Databricks reescala o valor reduzindo-o para metade —temperature: 1.0 comporta-se como 0.5.
  • Raciocínio de ida e volta entre turnos. Para permitir que o modelo raciocine com base no seu raciocínio anterior numa conversa de vários turnos, envie os itens reasoning devolvidos — com as suas encrypted_content inalteradas — no input do pedido seguinte. Consulte Modelos de raciocínio de consulta.
  • As entradas de imagem e documento devem ser URIs de dados base64. Forneça imagens através de image_url como um URI em base64 data: e documentos através de file_data como um URI em base64 data:. https URLs e file_id referências não são suportadas.
  • A saída estruturada tem restrições. text.format do tipo json_schema é suportado, mas json_object não é e gera um erro. A saída estruturada não pode ser combinada com streaming ou com raciocínio, e não se pode atribuir tool_choice a uma ferramenta específica ao usá-la. Consulte Saídas estruturadas no Azure Databricks.
  • Os tokens de raciocínio são incluídos em usage.output_tokens em vez de serem indicados separadamente.

Modelos do Google Gemini

  • A temperatura utiliza uma escala 0–2. O Gemini usa um intervalo nativo de 0–1, por isso o Databricks reescala o valor reduzindo-o para metade —temperature: 1.0 comporta-se como 0.5.
  • Raciocínio de ida e volta entre turnos. Para permitir que o modelo raciocine com base no seu raciocínio anterior numa conversa de vários turnos, envie os itens reasoning devolvidos — com as suas encrypted_content inalteradas — no input do pedido seguinte. Consulte Modelos de raciocínio de consulta.
  • A entrada de imagem aceita tanto https URLs como URIs de dados base64.
  • Os tokens de raciocínio são reportados em usage.output_tokens_details.reasoning_tokens.

Important

Chamadas de ferramentas multi-turno com Gemini requerem preservar encrypted_content. Gemini retorna um valor encrypted_content a cada item function_call que produz. Quando enviares o resultado da ferramenta de volta para o turno seguinte, deves incluir o item original function_call com o campo encrypted_content inalterado. Frameworks de agentes que reconstroem chamadas a ferramentas apenas a partir de name, arguments e call_id omitem este campo, o que faz com que o pedido subsequente seja rejeitado.

O exemplo seguinte preserva o item function_call (com o respetivo encrypted_content) ao devolver o resultado da ferramenta:

{
  "model": "databricks-gemini-2-5-pro",
  "input": [
    { "role": "user", "content": "What's the weather in San Francisco?" },
    {
      "type": "function_call",
      "call_id": "call_abc123",
      "name": "get_weather",
      "arguments": "{\"city\": \"San Francisco\"}",
      "encrypted_content": "<opaque-provider-signature>"
    },
    {
      "type": "function_call_output",
      "call_id": "call_abc123",
      "output": "{\"temp_f\": 64}"
    }
  ]
}

Tools

A API Open Responses suporta ferramentas do tipo function em vários fornecedores. Para mais detalhes e conhecer os modelos suportados, consulte Chamada de função no Azure Databricks. Para a ferramenta integrada de pesquisa web, veja pesquisa web no Azure Databricks.

Outros tipos de ferramentas incorporadas e personalizadas (por exemplo custom, , apply_patch, image_generation, e mcp) estão disponíveis apenas através da API OpenAI Responses.

Modelos suportados

A API Open Responses está disponível em vários modelos fundacionais da Databricks, incluindo Anthropic Claude, Google Gemini e modelos abertos alojados na Databricks, e o suporte estende-se a novos modelos daqui para a frente. Para consultar a lista atual de modelos disponíveis, consulte Tipos de modelos fundacionais.

O suporte a funcionalidades, como chamada de funções, raciocínio, saída estruturada e entrada de imagens, depende do modelo subjacente. Ver Comportamento específico do prestador.

Tipos de entrada suportados

O suporte de entrada depende do modelo e do fornecedor. A introdução de texto é suportada por todos os modelos. Para entrada de imagens, consulte as notas específicas de cada fornecedor em Comportamento específico de cada fornecedor e os requisitos de formato e tamanho em Consultar modelos de visão. Para tipos de entrada por modelo, veja modelos de fundação alojados em Databricks disponíveis nas APIs de Modelos de Fundação.

Recursos adicionais