Referência da API REST de imagem e áudio Azure OpenAI (2024-10-21)

Este artigo documenta as operações REST API de geração de imagens e inferência do plano de dados de áudio (voz) para Azure OpenAI na 2024-10-21 versão GA. Para conclusãos de chat, embeddings, completions e todas as outras operações, consulte a referência oficial da API REST do Azure OpenAI.

Especificações da API

A gestão e interação com modelos e recursos OpenAI do Azure está dividida em três superfícies principais de API:

Plano de controlo
Plano de dados - autoria
Plano de dados - inferência

Cada superfície/especificação API encapsula um conjunto diferente de capacidades do Azure OpenAI. Cada API tem o seu próprio conjunto único de pré-visualização e versões de APIs estáveis/geralmente disponíveis (GA). Atualmente, os lançamentos de pré-visualização tendem a seguir uma cadência mensal.

Important

Agora existe uma nova API de inferência de pré-visualização. Saiba mais no nosso guia do ciclo de vida da API.

API	Última versão de pré-visualização	Última versão da GA	Specifications	Description
Plano de controlo	`2025-07-01-preview`	`2025-06-01`	Arquivos de especificações	A API do plano de controlo é usada para operações como criação de recursos, implementação de modelos e outras tarefas de gestão de recursos de nível superior. O plano de controlo também regula o que é possível fazer com capacidades como Azure Resource Manager, Bicep, Terraform e CLI do Azure.
Plano de dados	`v1 preview`	`v1`	Arquivos de especificações	A API do plano de dados controla as operações de inferência e autoria.

Authentication

O Azure OpenAI fornece dois métodos para autenticação. Pode usar API Keys ou Microsoft Entra ID.

Autenticação de Chave API: Para este tipo de autenticação, todos os pedidos de API devem incluir a Chave API no api-key cabeçalho HTTP. O Quickstart fornece orientações sobre como fazer chamadas com este tipo de autenticação.
Microsoft Entra ID: Pode autenticar uma chamada API usando um token Microsoft Entra. Os tokens de autenticação são incluídos num pedido como Authorization cabeçalho. O token fornecido deve ser precedido por Bearer, por exemplo Bearer YOUR_AUTH_TOKEN. Pode ler o nosso guia prático sobre autenticação com Microsoft Entra ID.

Versionamento da API REST

As APIs dos serviços são versionadas usando o api-version parâmetro de consulta. Todas as versões seguem a estrutura de datas YYYY-MM-DD. Por exemplo:

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01

Inferência do plano de dados

O restante deste artigo aborda as operações de imagem e áudio na versão GA da especificação de inferência do plano de dados do Azure OpenAI, 2024-10-21.

Para as operações de imagem de pré-visualização e áudio, consulte a referência da API REST de imagem de pré-visualização e áudio.

Transcrições - Criar

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Transcreve o áudio para a língua de entrada.

Parâmetros de URI

Name	Em	Obrigatório	Tipo	Description
ponto final	caminho	Yes	cadeia (de caracteres) url	Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: `https://aoairesource.openai.azure.com`). Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{seu-nome-de-recurso}.openai.azure.com
ID de implementação	caminho	Yes	cadeia (de caracteres)	ID de implementação do modelo de voz para texto. Para informações sobre modelos suportados, veja [/azure/ai-foundry/openai/concepts/models#audio-models].
Versão da API	consulta	Yes	cadeia (de caracteres)	Versão da API

Cabeçalho da solicitação

Name	Obrigatório	Tipo	Description
chave de API	Verdade	cadeia (de caracteres)	Forneça aqui a chave API do Azure OpenAI

Órgão do Pedido

Tipo de conteúdo: multipart/form-data

Name	Tipo	Description	Obrigatório	Predefinição
ficheiro	cadeia (de caracteres)	O objeto do ficheiro áudio para transcrever.	Yes
avisar	cadeia (de caracteres)	Um texto opcional para guiar o estilo do modelo ou continuar um segmento áudio anterior. O prompt deve corresponder à linguagem do áudio.	No
formato_de_resposta	audioResponseFormat	Define o formato da saída.	No
Temperatura	number	A temperatura de amostragem, entre 0 e 1. Valores mais altos como 0,8 tornam a saída mais aleatória, enquanto valores mais baixos como 0,2 tornam-na mais focada e determinística. Se definido para 0, o modelo usará a probabilidade logarítmica para aumentar automaticamente a temperatura até que certos limiares sejam atingidos.	No	0
linguagem	cadeia (de caracteres)	A linguagem do áudio de entrada. Fornecer a linguagem de entrada no formato ISO-639-1 irá melhorar a precisão e a latência.	No

Respostas

Código de Estado: 200

Descrição: OK

Tipo de conteúdo	Type	Description
Application/JSON	audioResposta ou áudioResposta Verbosa
texto/sem formatação	cadeia (de caracteres)	Texto transcrito no formato de saída (quando response_format era de texto, vtt ou srt).

Exemplos

Exemplo

Obtém texto transcrito e metadados associados a partir dos dados de áudio falado fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Respostas: Código de Estado: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Exemplo

Obtém texto transcrito e metadados associados a partir dos dados de áudio falado fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respostas: Código de Estado: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Traduções - Create

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

Transcreve e traduz áudio de entrada para texto em inglês.

Parâmetros de URI

Name	Em	Obrigatório	Tipo	Description
ponto final	caminho	Yes	cadeia (de caracteres) url	Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: `https://aoairesource.openai.azure.com`). Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{seu-nome-de-recurso}.openai.azure.com
ID de implementação	caminho	Yes	cadeia (de caracteres)	ID de implementação do modelo whisper que foi implementado. Para informações sobre modelos suportados, veja [/azure/ai-foundry/openai/concepts/models#audio-models].
Versão da API	consulta	Yes	cadeia (de caracteres)	Versão da API

Cabeçalho da solicitação

Name	Obrigatório	Tipo	Description
chave de API	Verdade	cadeia (de caracteres)	Forneça aqui a chave API do Azure OpenAI

Órgão do Pedido

Tipo de conteúdo: multipart/form-data

Name	Tipo	Description	Obrigatório	Predefinição
ficheiro	cadeia (de caracteres)	O ficheiro de áudio para traduzir.	Yes
avisar	cadeia (de caracteres)	Um texto opcional para guiar o estilo do modelo ou continuar um segmento áudio anterior. O enunciado deve estar em inglês.	No
formato_de_resposta	audioResponseFormat	Define o formato da saída.	No
Temperatura	number	A temperatura de amostragem, entre 0 e 1. Valores mais altos como 0,8 tornam a saída mais aleatória, enquanto valores mais baixos como 0,2 tornam-na mais focada e determinística. Se definido para 0, o modelo usará a probabilidade logarítmica para aumentar automaticamente a temperatura até que certos limiares sejam atingidos.	No	0

Respostas

Código de Estado: 200

Descrição: OK

Tipo de conteúdo	Type	Description
Application/JSON	audioResposta ou áudioResposta Verbosa
texto/sem formatação	cadeia (de caracteres)	Texto transcrito no formato de saída (quando response_format era de texto, vtt ou srt).

Exemplos

Exemplo

Obtém texto transcrito em inglês e metadados associados a partir dos dados de áudio falado fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respostas: Código de Estado: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Exemplo

Obtém texto transcrito em inglês e metadados associados a partir dos dados de áudio falado fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respostas: Código de Estado: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Geração de imagens

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

Gera um lote de imagens a partir de uma legenda de texto numa dada implementação do modelo dall-e

Parâmetros de URI

Name	Em	Obrigatório	Tipo	Description
ponto final	caminho	Yes	cadeia (de caracteres) url	Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: `https://aoairesource.openai.azure.com`). Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{seu-nome-de-recurso}.openai.azure.com
ID de implementação	caminho	Yes	cadeia (de caracteres)	ID de implementação do modelo dall-e que foi implementado.
Versão da API	consulta	Yes	cadeia (de caracteres)	Versão da API

Cabeçalho da solicitação

Name	Obrigatório	Tipo	Description
chave de API	Verdade	cadeia (de caracteres)	Forneça aqui a chave API do Azure OpenAI

Órgão do Pedido

Tipo de conteúdo: application/json

Name	Tipo	Description	Obrigatório	Predefinição
avisar	cadeia (de caracteres)	Uma descrição em texto da(s) imagem(ões) desejada(s). O comprimento máximo é de 4.000 caracteres.	Yes
n	número inteiro	O número de imagens a gerar.	No	1
size	imageSize	O tamanho das imagens geradas.	No	1024 x 1024
formato_de_resposta	imagesResponseFormat	O formato em que as imagens geradas são devolvidas.	No	url
utilizador	cadeia (de caracteres)	Um identificador único que representa o seu utilizador final, que pode ajudar a monitorizar e detetar abusos.	No
qualidade	qualidade de imagem	A qualidade da imagem que será gerada.	No	norma
Estilo	imageStyle	O estilo das imagens geradas.	No	vívido

Respostas

Código de Estado: 200

Descrição: Ok

Tipo de conteúdo	Type	Description
Application/JSON	generateImagesResponse

Código de Estado: padrão

Descrição: Ocorreu um erro.

Tipo de conteúdo	Type	Description
Application/JSON	dalleErrorResponse

Exemplos

Exemplo

Cria imagens com um prompt.

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

{
 "prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
 "n": 1,
 "style": "natural",
 "quality": "standard"
}

Respostas: Código de Estado: 200

{
  "body": {
    "created": 1698342300,
    "data": [
      {
        "revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
        "prompt_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          },
          "profanity": {
            "detected": false,
            "filtered": false
          }
        },
        "url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
        "content_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          }
        }
      }
    ]
  }
}

Components

Para as definições de esquema usadas por chat, completions, embeddings e outras operações de texto, consulte a referência à API REST do Azure OpenAI. Os seguintes esquemas suportam as operações de imagem e áudio nesta página.

innerErrorCode

Códigos de erro para o objeto de erro interno.

Descrição: Códigos de erro para o objeto de erro interno.

Tipo: string

Predefinido:

Nome Enum: InnerErrorCode

Valores de Enum:

valor	Description
Violação da Política de IA Responsável	O prompt violou uma de mais regras de filtro de conteúdo.

dalleErrorResponse

Name	Tipo	Description	Obrigatório	Predefinição
erro	dalleError		No

dalleError

Name	Tipo	Description	Obrigatório
param	cadeia (de caracteres)		No
tipo	cadeia (de caracteres)		No
inner_error	dalleInnerError	Erro interno com detalhes adicionais.	No

dalleInnerError

Erro interno com detalhes adicionais.

Name	Tipo	Description	Obrigatório
código	innerErrorCode	Códigos de erro para o objeto de erro interno.	No
content_filter_results	dalleFilterResults	Informação sobre a categoria de filtragem de conteúdos (ódio, sexual, violência, self_harm), se foi detetada, bem como o nível de gravidade (escala very_low, baixa, média, alta que determina a intensidade e o nível de risco do conteúdo nocivo) e se foi filtrada ou não. Informação sobre conteúdos de jailbreak e palavrões, se foram detetados e se foram filtrados ou não. E informações sobre a lista de clientes bloqueados, se foi filtrada e o seu identificação.	No
Proposta de Melhorias: - Certificar-se de que as frases e termos são traduzidos corretamente para refletir o mesmo significado do texto de origem. - Adaptar quaisquer termos em inglês que possam ser traduzidos naturalmente para português, preservando o seu significado. - Corrigir quaisquer questões gramaticais para aumentar a fluência e a legibilidade em português. - Usar a estrutura de frases em português natural para que a tradução soe nativa. - Verificar o uso apropriado de pontuação e registro para o português.	cadeia (de caracteres)	O prompt que foi usado para gerar a imagem, caso tenha havido alguma revisão ao prompt.	No

resultadoDeSeveridadeDoFiltroDeConteúdo

Name	Tipo	Description	Obrigatório	Predefinição
filtered	boolean		Yes
severity	cadeia (de caracteres)		No

resultado de deteção de filtro de conteúdo

Name	Tipo	Description	Obrigatório	Predefinição
filtered	boolean		Yes
detected	boolean		No

dalleFilterResults

Informação sobre a categoria de filtragem de conteúdos (ódio, sexual, violência, self_harm), se foi detetada, bem como o nível de gravidade (escala very_low, baixa, média, alta que determina a intensidade e o nível de risco do conteúdo nocivo) e se foi filtrada ou não. Informação sobre conteúdos de jailbreak e palavrões, se foram detetados e se foram filtrados ou não. E informações sobre a lista de clientes bloqueados, se foi filtrada e o seu identificação.

Name	Tipo	Obrigatório
sexual	resultadoDaGravidadeDoFiltroDeConteúdo	No
violence	resultadoDaGravidadeDoFiltroDeConteúdo	No
hate	resultadoDaGravidadeDoFiltroDeConteúdo	No
self_harm	resultadoDaGravidadeDoFiltroDeConteúdo	No
profanity	resultadoDetetadoDoFiltroDeConteúdo	No
jailbreak	resultadoDetetadoDoFiltroDeConteúdo	No

Resposta de Áudio

Resposta de tradução ou transcrição quando response_format era json

Name	Tipo	Description	Obrigatório	Predefinição
enviar SMS	cadeia (de caracteres)	Texto traduzido ou transcrito.	Yes

audioVerboseResponse

Resposta de tradução ou transcrição quando response_format foi verbose_json

Name	Tipo	Description	Obrigatório
enviar SMS	cadeia (de caracteres)	Texto traduzido ou transcrito.	Yes
tarefa	cadeia (de caracteres)	Tipo de tarefa áudio.	No
linguagem	cadeia (de caracteres)	Language.	No
duration	number	Duração.	No
segments	matriz		No

audioResponseFormat

Define o formato da saída.

Descrição: Define o formato da saída.

Tipo: string

Predefinido:

Valores de Enum:

json
enviar SMS
SRT
json verboso
VTT

qualidade de imagem

A qualidade da imagem que será gerada.

Descrição: A qualidade da imagem que será gerada.

Tipo: string

Padrão: norma

Nome Enum: Quality

Valores de Enum:

valor	Description
norma	A qualidade padrão cria imagens com qualidade padrão.
alta definição	A qualidade HD cria imagens com detalhes mais finos e maior consistência ao longo da imagem.

imagesResponseFormat

O formato em que as imagens geradas são devolvidas.

Descrição: O formato em que as imagens geradas são devolvidas.

Tipo: string

Padrão: url

Nome Enum: ImagesResponseFormat

Valores de Enum:

valor	Description
url	O URL que fornece acesso temporário para descarregar as imagens geradas.
b64_json	As imagens geradas são devolvidas como strings codificadas em base64.

imageSize

O tamanho das imagens geradas.

Descrição: O tamanho das imagens geradas.

Tipo: string

Padrão: 1024x1024

Nome Enum: Tamanho

Valores de Enum:

valor	Description
1792x1024	O tamanho desejado da imagem gerada é 1792x1024 píxeis.
1024x1792	O tamanho desejado da imagem gerada é 1024x1792 píxeis.
1024 x 1024	O tamanho desejado da imagem gerada é 1024x1024 píxeis.

imageStyle

O estilo das imagens geradas.

Descrição: O estilo das imagens geradas.

Tipo: string

Padrão: vívido

Nome Enum: Style

Valores de Enum:

valor	Description
vívido	Vivid cria imagens hiper-realistas e dramáticas.
naturais	Natural cria imagens mais naturais e menos hiper-realistas.

generateImagesResponse

Name	Tipo	Description	Obrigatório	Predefinição
criado	número inteiro	O carimbo temporal do unix quando a operação foi criada.	Yes
dados	matriz	Os dados de resultado da operação, se bem-sucedidos	Yes

Passos seguintes

Aprenda sobre modelos e ajuste fino com a API REST. Saiba mais sobre os modelos subjacentes que alimentam Azure OpenAI.

Comentários

Esta página foi útil?

Last updated on 2026-06-24

Referência da API REST de imagem e áudio Azure OpenAI (2024-10-21)

Especificações da API

Authentication

Versionamento da API REST

Inferência do plano de dados

Transcrições - Criar

Parâmetros de URI

Cabeçalho da solicitação

Órgão do Pedido

Respostas

Exemplos

Exemplo

Exemplo

Traduções - Create

Parâmetros de URI

Cabeçalho da solicitação

Órgão do Pedido

Respostas

Exemplos

Exemplo

Exemplo

Geração de imagens

Parâmetros de URI

Cabeçalho da solicitação

Órgão do Pedido

Respostas

Exemplos

Exemplo

Components

innerErrorCode

dalleErrorResponse

dalleError

dalleInnerError

resultadoDeSeveridadeDoFiltroDeConteúdo

resultado de deteção de filtro de conteúdo

dalleFilterResults

Resposta de Áudio

audioVerboseResponse

audioResponseFormat

qualidade de imagem

imagesResponseFormat

imageSize

imageStyle

generateImagesResponse

Passos seguintes

Comentários

Recursos adicionais