Referência da API REST de imagem e áudio Azure OpenAI (2024-10-21)

Este artigo documenta as operações REST API de geração de imagens e inferência do plano de dados de áudio (voz) para Azure OpenAI na 2024-10-21 versão GA. Para conclusãos de chat, embeddings, completions e todas as outras operações, consulte a referência oficial da API REST do Azure OpenAI.

Especificações da API

A gestão e interação com modelos e recursos OpenAI do Azure está dividida em três superfícies principais de API:

  • Plano de controlo
  • Plano de dados - autoria
  • Plano de dados - inferência

Cada superfície/especificação API encapsula um conjunto diferente de capacidades do Azure OpenAI. Cada API tem o seu próprio conjunto único de pré-visualização e versões de APIs estáveis/geralmente disponíveis (GA). Atualmente, os lançamentos de pré-visualização tendem a seguir uma cadência mensal.

Important

Agora existe uma nova API de inferência de pré-visualização. Saiba mais no nosso guia do ciclo de vida da API.

API Última versão de pré-visualização Última versão da GA Specifications Description
Plano de controlo 2025-07-01-preview 2025-06-01 Arquivos de especificações A API do plano de controlo é usada para operações como criação de recursos, implementação de modelos e outras tarefas de gestão de recursos de nível superior. O plano de controlo também regula o que é possível fazer com capacidades como Azure Resource Manager, Bicep, Terraform e CLI do Azure.
Plano de dados v1 preview v1 Arquivos de especificações A API do plano de dados controla as operações de inferência e autoria.

Authentication

O Azure OpenAI fornece dois métodos para autenticação. Pode usar API Keys ou Microsoft Entra ID.

  • Autenticação de Chave API: Para este tipo de autenticação, todos os pedidos de API devem incluir a Chave API no api-key cabeçalho HTTP. O Quickstart fornece orientações sobre como fazer chamadas com este tipo de autenticação.

  • Microsoft Entra ID: Pode autenticar uma chamada API usando um token Microsoft Entra. Os tokens de autenticação são incluídos num pedido como Authorization cabeçalho. O token fornecido deve ser precedido por Bearer, por exemplo Bearer YOUR_AUTH_TOKEN. Pode ler o nosso guia prático sobre autenticação com Microsoft Entra ID.

Versionamento da API REST

As APIs dos serviços são versionadas usando o api-version parâmetro de consulta. Todas as versões seguem a estrutura de datas YYYY-MM-DD. Por exemplo:

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01

Inferência do plano de dados

O restante deste artigo aborda as operações de imagem e áudio na versão GA da especificação de inferência do plano de dados do Azure OpenAI, 2024-10-21.

Para as operações de imagem de pré-visualização e áudio, consulte a referência da API REST de imagem de pré-visualização e áudio.

Transcrições - Criar

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Transcreve o áudio para a língua de entrada.

Parâmetros de URI

Name Em Obrigatório Tipo Description
ponto final caminho Yes cadeia (de caracteres)
url
Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: https://aoairesource.openai.azure.com). Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{seu-nome-de-recurso}.openai.azure.com
ID de implementação caminho Yes cadeia (de caracteres) ID de implementação do modelo de voz para texto.

Para informações sobre modelos suportados, veja [/azure/ai-foundry/openai/concepts/models#audio-models].
Versão da API consulta Yes cadeia (de caracteres) Versão da API

Cabeçalho da solicitação

Name Obrigatório Tipo Description
chave de API Verdade cadeia (de caracteres) Forneça aqui a chave API do Azure OpenAI

Órgão do Pedido

Tipo de conteúdo: multipart/form-data

Name Tipo Description Obrigatório Predefinição
ficheiro cadeia (de caracteres) O objeto do ficheiro áudio para transcrever. Yes
avisar cadeia (de caracteres) Um texto opcional para guiar o estilo do modelo ou continuar um segmento áudio anterior. O prompt deve corresponder à linguagem do áudio. No
formato_de_resposta audioResponseFormat Define o formato da saída. No
Temperatura number A temperatura de amostragem, entre 0 e 1. Valores mais altos como 0,8 tornam a saída mais aleatória, enquanto valores mais baixos como 0,2 tornam-na mais focada e determinística. Se definido para 0, o modelo usará a probabilidade logarítmica para aumentar automaticamente a temperatura até que certos limiares sejam atingidos. No 0
linguagem cadeia (de caracteres) A linguagem do áudio de entrada. Fornecer a linguagem de entrada no formato ISO-639-1 irá melhorar a precisão e a latência. No

Respostas

Código de Estado: 200

Descrição: OK

Tipo de conteúdo Type Description
Application/JSON audioResposta ou áudioResposta Verbosa
texto/sem formatação cadeia (de caracteres) Texto transcrito no formato de saída (quando response_format era de texto, vtt ou srt).

Exemplos

Exemplo

Obtém texto transcrito e metadados associados a partir dos dados de áudio falado fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Respostas: Código de Estado: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Exemplo

Obtém texto transcrito e metadados associados a partir dos dados de áudio falado fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respostas: Código de Estado: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Traduções - Create

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

Transcreve e traduz áudio de entrada para texto em inglês.

Parâmetros de URI

Name Em Obrigatório Tipo Description
ponto final caminho Yes cadeia (de caracteres)
url
Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: https://aoairesource.openai.azure.com). Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{seu-nome-de-recurso}.openai.azure.com
ID de implementação caminho Yes cadeia (de caracteres) ID de implementação do modelo whisper que foi implementado.

Para informações sobre modelos suportados, veja [/azure/ai-foundry/openai/concepts/models#audio-models].
Versão da API consulta Yes cadeia (de caracteres) Versão da API

Cabeçalho da solicitação

Name Obrigatório Tipo Description
chave de API Verdade cadeia (de caracteres) Forneça aqui a chave API do Azure OpenAI

Órgão do Pedido

Tipo de conteúdo: multipart/form-data

Name Tipo Description Obrigatório Predefinição
ficheiro cadeia (de caracteres) O ficheiro de áudio para traduzir. Yes
avisar cadeia (de caracteres) Um texto opcional para guiar o estilo do modelo ou continuar um segmento áudio anterior. O enunciado deve estar em inglês. No
formato_de_resposta audioResponseFormat Define o formato da saída. No
Temperatura number A temperatura de amostragem, entre 0 e 1. Valores mais altos como 0,8 tornam a saída mais aleatória, enquanto valores mais baixos como 0,2 tornam-na mais focada e determinística. Se definido para 0, o modelo usará a probabilidade logarítmica para aumentar automaticamente a temperatura até que certos limiares sejam atingidos. No 0

Respostas

Código de Estado: 200

Descrição: OK

Tipo de conteúdo Type Description
Application/JSON audioResposta ou áudioResposta Verbosa
texto/sem formatação cadeia (de caracteres) Texto transcrito no formato de saída (quando response_format era de texto, vtt ou srt).

Exemplos

Exemplo

Obtém texto transcrito em inglês e metadados associados a partir dos dados de áudio falado fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respostas: Código de Estado: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Exemplo

Obtém texto transcrito em inglês e metadados associados a partir dos dados de áudio falado fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respostas: Código de Estado: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Geração de imagens

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

Gera um lote de imagens a partir de uma legenda de texto numa dada implementação do modelo dall-e

Parâmetros de URI

Name Em Obrigatório Tipo Description
ponto final caminho Yes cadeia (de caracteres)
url
Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: https://aoairesource.openai.azure.com). Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{seu-nome-de-recurso}.openai.azure.com
ID de implementação caminho Yes cadeia (de caracteres) ID de implementação do modelo dall-e que foi implementado.
Versão da API consulta Yes cadeia (de caracteres) Versão da API

Cabeçalho da solicitação

Name Obrigatório Tipo Description
chave de API Verdade cadeia (de caracteres) Forneça aqui a chave API do Azure OpenAI

Órgão do Pedido

Tipo de conteúdo: application/json

Name Tipo Description Obrigatório Predefinição
avisar cadeia (de caracteres) Uma descrição em texto da(s) imagem(ões) desejada(s). O comprimento máximo é de 4.000 caracteres. Yes
n número inteiro O número de imagens a gerar. No 1
size imageSize O tamanho das imagens geradas. No 1024 x 1024
formato_de_resposta imagesResponseFormat O formato em que as imagens geradas são devolvidas. No url
utilizador cadeia (de caracteres) Um identificador único que representa o seu utilizador final, que pode ajudar a monitorizar e detetar abusos. No
qualidade qualidade de imagem A qualidade da imagem que será gerada. No norma
Estilo imageStyle O estilo das imagens geradas. No vívido

Respostas

Código de Estado: 200

Descrição: Ok

Tipo de conteúdo Type Description
Application/JSON generateImagesResponse

Código de Estado: padrão

Descrição: Ocorreu um erro.

Tipo de conteúdo Type Description
Application/JSON dalleErrorResponse

Exemplos

Exemplo

Cria imagens com um prompt.

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

{
 "prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
 "n": 1,
 "style": "natural",
 "quality": "standard"
}

Respostas: Código de Estado: 200

{
  "body": {
    "created": 1698342300,
    "data": [
      {
        "revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
        "prompt_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          },
          "profanity": {
            "detected": false,
            "filtered": false
          }
        },
        "url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
        "content_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          }
        }
      }
    ]
  }
}

Components

Para as definições de esquema usadas por chat, completions, embeddings e outras operações de texto, consulte a referência à API REST do Azure OpenAI. Os seguintes esquemas suportam as operações de imagem e áudio nesta página.

innerErrorCode

Códigos de erro para o objeto de erro interno.

Descrição: Códigos de erro para o objeto de erro interno.

Tipo: string

Predefinido:

Nome Enum: InnerErrorCode

Valores de Enum:

valor Description
Violação da Política de IA Responsável O prompt violou uma de mais regras de filtro de conteúdo.

dalleErrorResponse

Name Tipo Description Obrigatório Predefinição
erro dalleError No

dalleError

Name Tipo Description Obrigatório Predefinição
param cadeia (de caracteres) No
tipo cadeia (de caracteres) No
inner_error dalleInnerError Erro interno com detalhes adicionais. No

dalleInnerError

Erro interno com detalhes adicionais.

Name Tipo Description Obrigatório Predefinição
código innerErrorCode Códigos de erro para o objeto de erro interno. No
content_filter_results dalleFilterResults Informação sobre a categoria de filtragem de conteúdos (ódio, sexual, violência, self_harm), se foi detetada, bem como o nível de gravidade (escala very_low, baixa, média, alta que determina a intensidade e o nível de risco do conteúdo nocivo) e se foi filtrada ou não. Informação sobre conteúdos de jailbreak e palavrões, se foram detetados e se foram filtrados ou não. E informações sobre a lista de clientes bloqueados, se foi filtrada e o seu identificação. No
Proposta de Melhorias: - Certificar-se de que as frases e termos são traduzidos corretamente para refletir o mesmo significado do texto de origem. - Adaptar quaisquer termos em inglês que possam ser traduzidos naturalmente para português, preservando o seu significado. - Corrigir quaisquer questões gramaticais para aumentar a fluência e a legibilidade em português. - Usar a estrutura de frases em português natural para que a tradução soe nativa. - Verificar o uso apropriado de pontuação e registro para o português. cadeia (de caracteres) O prompt que foi usado para gerar a imagem, caso tenha havido alguma revisão ao prompt. No

resultadoDeSeveridadeDoFiltroDeConteúdo

Name Tipo Description Obrigatório Predefinição
filtered boolean Yes
severity cadeia (de caracteres) No

resultado de deteção de filtro de conteúdo

Name Tipo Description Obrigatório Predefinição
filtered boolean Yes
detected boolean No

dalleFilterResults

Informação sobre a categoria de filtragem de conteúdos (ódio, sexual, violência, self_harm), se foi detetada, bem como o nível de gravidade (escala very_low, baixa, média, alta que determina a intensidade e o nível de risco do conteúdo nocivo) e se foi filtrada ou não. Informação sobre conteúdos de jailbreak e palavrões, se foram detetados e se foram filtrados ou não. E informações sobre a lista de clientes bloqueados, se foi filtrada e o seu identificação.

Name Tipo Description Obrigatório Predefinição
sexual resultadoDaGravidadeDoFiltroDeConteúdo No
violence resultadoDaGravidadeDoFiltroDeConteúdo No
hate resultadoDaGravidadeDoFiltroDeConteúdo No
self_harm resultadoDaGravidadeDoFiltroDeConteúdo No
profanity resultadoDetetadoDoFiltroDeConteúdo No
jailbreak resultadoDetetadoDoFiltroDeConteúdo No

Resposta de Áudio

Resposta de tradução ou transcrição quando response_format era json

Name Tipo Description Obrigatório Predefinição
enviar SMS cadeia (de caracteres) Texto traduzido ou transcrito. Yes

audioVerboseResponse

Resposta de tradução ou transcrição quando response_format foi verbose_json

Name Tipo Description Obrigatório Predefinição
enviar SMS cadeia (de caracteres) Texto traduzido ou transcrito. Yes
tarefa cadeia (de caracteres) Tipo de tarefa áudio. No
linguagem cadeia (de caracteres) Language. No
duration number Duração. No
segments matriz No

audioResponseFormat

Define o formato da saída.

Descrição: Define o formato da saída.

Tipo: string

Predefinido:

Valores de Enum:

  • json
  • enviar SMS
  • SRT
  • json verboso
  • VTT

qualidade de imagem

A qualidade da imagem que será gerada.

Descrição: A qualidade da imagem que será gerada.

Tipo: string

Padrão: norma

Nome Enum: Quality

Valores de Enum:

valor Description
norma A qualidade padrão cria imagens com qualidade padrão.
alta definição A qualidade HD cria imagens com detalhes mais finos e maior consistência ao longo da imagem.

imagesResponseFormat

O formato em que as imagens geradas são devolvidas.

Descrição: O formato em que as imagens geradas são devolvidas.

Tipo: string

Padrão: url

Nome Enum: ImagesResponseFormat

Valores de Enum:

valor Description
url O URL que fornece acesso temporário para descarregar as imagens geradas.
b64_json As imagens geradas são devolvidas como strings codificadas em base64.

imageSize

O tamanho das imagens geradas.

Descrição: O tamanho das imagens geradas.

Tipo: string

Padrão: 1024x1024

Nome Enum: Tamanho

Valores de Enum:

valor Description
1792x1024 O tamanho desejado da imagem gerada é 1792x1024 píxeis.
1024x1792 O tamanho desejado da imagem gerada é 1024x1792 píxeis.
1024 x 1024 O tamanho desejado da imagem gerada é 1024x1024 píxeis.

imageStyle

O estilo das imagens geradas.

Descrição: O estilo das imagens geradas.

Tipo: string

Padrão: vívido

Nome Enum: Style

Valores de Enum:

valor Description
vívido Vivid cria imagens hiper-realistas e dramáticas.
naturais Natural cria imagens mais naturais e menos hiper-realistas.

generateImagesResponse

Name Tipo Description Obrigatório Predefinição
criado número inteiro O carimbo temporal do unix quando a operação foi criada. Yes
dados matriz Os dados de resultado da operação, se bem-sucedidos Yes

Passos seguintes

Aprenda sobre modelos e ajuste fino com a API REST. Saiba mais sobre os modelos subjacentes que alimentam Azure OpenAI.