Azure AI Model Inference REST API reference

A inferência de modelos de IA do Azure é uma API que expõe um conjunto comum de capacidades para modelos fundamentais e que pode ser usada por programadores para consumir previsões de um conjunto diversificado de modelos de forma uniforme e consistente. Os programadores podem comunicar com diferentes modelos implementados no portal Azure AI Foundry sem alterar o código subjacente que estão a usar.

Benefícios

Modelos fundamentais, como os modelos de linguagem, de facto fizeram progressos notáveis nos últimos anos. Estes avanços revolucionaram vários campos, incluindo o processamento de linguagem natural e a visão computacional, e permitiram aplicações como chatbots, assistentes virtuais e serviços de tradução de línguas.

Embora os modelos fundamentais se destaquem em domínios específicos, carecem de um conjunto uniforme de capacidades. Alguns modelos são melhores numa tarefa específica e, mesmo na mesma tarefa, alguns modelos podem abordar o problema de uma forma enquanto outros de outra. Os programadores podem beneficiar desta diversidade ao utilizarem o modelo certo para o trabalho certo , permitindo-lhes:

Melhore o desempenho numa tarefa específica a jusante.
Use modelos mais eficientes para tarefas mais simples.
Use modelos mais pequenos que possam correr mais rápido em tarefas específicas.
Escreva múltiplos modelos para desenvolver experiências inteligentes.

Ter uma forma uniforme de consumir modelos fundamentais permite aos programadores obter todos esses benefícios sem sacrificar a portabilidade ou alterar o código subjacente.

Suporte para SDK de inferência

O pacote Azure AI Inference permite-lhe consumir todos os modelos que suportam a API de inferência de modelos de IA do Azure e mudar facilmente entre eles. O pacote Azure AI Inference faz parte do SDK do Azure AI Foundry .

Linguagem	Documentation	Package	Examples
C#	Referência	azure-ai-inferência (NuGet)	Exemplos de C#
Java	Referência	Azure-AI-Inferência (Maven)	Exemplos de Java
JavaScript	Referência	@azure/IA-Inferência (NPM)	Exemplos de JavaScript
Python	Referência	azure-ai-inferência (PyPi)	Exemplos de Python

Capabilities

A secção seguinte descreve algumas das capacidades que a API expõe:

Modalidades

A API indica como os programadores podem consumir previsões para as seguintes modalidades:

Obter informações: Devolve a informação sobre o modelo implementado no endpoint.
Embeddings de texto: Cria um vetor de embedding que representa o texto de entrada.
Conclusão do chat: Cria uma resposta modelo para a conversa dada no chat.
Embeddings de imagens: Cria um vetor de embedding que representa o texto de entrada e a imagem.

Extensibility

A API de Inferência de Modelos de IA do Azure especifica um conjunto de modalidades e parâmetros aos quais os modelos podem subscrever. No entanto, alguns modelos podem ter capacidades adicionais ao que a API indica. Nesses casos, a API permite ao programador passá-los como parâmetros extra na carga útil.

Ao definir um cabeçalho extra-parameters: pass-through, a API tentará passar qualquer parâmetro desconhecido diretamente para o modelo subjacente. Se o modelo conseguir lidar com esse parâmetro, o pedido é concluído.

O exemplo seguinte mostra um pedido que passa o parâmetro safe_prompt suportado pelo Mistral-Large, que não está especificado na API de Inferência de Modelos de IA do Azure.

Pedido

POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json
extra-parameters: pass-through

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Explain Riemann's conjecture in 1 paragraph"
    }
    ],
    "temperature": 0,
    "top_p": 1,
    "response_format": { "type": "text" },
    "safe_prompt": true
}

Note

O valor padrão para extra-parameters é error que devolve um erro se um parâmetro extra for indicado na carga útil. Alternativamente, pode definir extra-parameters: drop para eliminar qualquer parâmetro desconhecido no pedido. Use esta funcionalidade caso esteja a enviar pedidos com parâmetros extra que sabe que o modelo não suporta, mas quer que o pedido seja concluído na mesma. Um exemplo típico disto é o parâmetro indicador seed .

Modelos com conjuntos díspares de capacidades

A API de Inferência de Modelos de IA do Azure indica um conjunto geral de capacidades, mas cada um dos modelos pode decidir implementá-las ou não. Um erro específico é devolvido nos casos em que o modelo não consegue suportar um parâmetro específico.

O exemplo seguinte mostra a resposta a um pedido de conclusão de chat, indicando o parâmetro reponse_format e pedindo uma resposta no JSON formato. No exemplo, como o modelo não suporta tal capacidade, o erro 422 é devolvido ao utilizador.

Pedido

POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Explain Riemann's conjecture in 1 paragraph"
    }
    ],
    "temperature": 0,
    "top_p": 1,
    "response_format": { "type": "json_object" },
}

Resposta

{
    "status": 422,
    "code": "parameter_not_supported",
    "detail": {
        "loc": [ "body", "response_format" ],
        "input": "json_object"
    },
    "message": "One of the parameters contain invalid values."
}

Tip

Pode inspecionar a propriedade details.loc para perceber a localização do parâmetro infrator e details.input ver o valor que foi passado no pedido.

Segurança dos Conteúdos

A API de inferência de modelos de IA Azure suporta Segurança de conteúdo de IA do Azure. Ao utilizar implementações com o Segurança de conteúdo de IA do Azure ativado, as entradas e saídas passam por um conjunto de modelos de classificação destinados a detetar e prevenir a saída de conteúdos prejudiciais. O sistema de filtragem de conteúdo (pré-visualização) deteta e age sobre categorias específicas de conteúdo potencialmente prejudicial tanto em prompts de entrada como em conclusãos de saída.

O exemplo seguinte mostra a resposta a um pedido de conclusão de chat que ativou a segurança de conteúdo.

Pedido

POST /chat/completions?api-version=2025-04-01
Authorization: Bearer <bearer-token>
Content-Type: application/json

{
    "messages": [
    {
        "role": "system",
        "content": "You are a helpful assistant"
    },
    {
        "role": "user",
        "content": "Chopping tomatoes and cutting them into cubes or wedges are great ways to practice your knife skills."
    }
    ],
    "temperature": 0,
    "top_p": 1,
}

Resposta

{
    "status": 400,
    "code": "content_filter",
    "message": "The response was filtered",
    "param": "messages",
    "type": null
}

Como Começar

A API de inferência de modelos de IA do Azure está disponível nos recursos do Azure AI Services. Pode começar com ele da mesma forma que qualquer outro produto Azure, onde criar e configurar o seu recurso para Azure inferência do modelo de IA, ou instância do serviço, na sua Azure Subscrição. Pode criar tantos recursos quanto necessário e configurá-los de forma independente, caso tenha várias equipas com requisitos diferentes.

Depois de criar um recurso Azure AI Services, deve implementar um modelo antes de começar a fazer chamadas API. Por defeito, não há modelos disponíveis, por isso podes controlar por onde começar. Veja o tutorial Crie a sua primeira implementação de modelo em Azure inferência de modelos de IA.

Last updated on 2026-06-12

Azure AI Model Inference REST API reference

Benefícios

Suporte para SDK de inferência

Capabilities

Modalidades

Extensibility

Modelos com conjuntos díspares de capacidades

Segurança dos Conteúdos

Como Começar

Recursos adicionais