Azure referência da API REST de áudio e imagem OpenAI (2024-10-21)

Este artigo documenta a geração de imagem e as operações da API REST de inferência do plano de dados de áudio (fala) para Azure OpenAI na 2024-10-21 versão ga. Para conclusões de chat, inserções, conclusões e todas as outras operações, consulte o Azure referência oficial da API REST do OpenAI.

Especificações de API

Gerenciar e interagir com modelos e recursos do OpenAI do Azure é dividido em três superfícies principais de API:

Painel de controle
Plano de dados - autoria
Plano de dados - inferência

Cada superfície/especificação de API encapsula um conjunto diferente de capacidades do Azure OpenAI. Cada API possui seu próprio conjunto único de pré-visualizações e versões estáveis/geralmente disponíveis (GA). Os lançamentos de prévia atualmente tendem a seguir uma cadência mensal.

Importante

Agora há uma nova API de inferência de pré-visualização. Saiba mais em nosso guia do ciclo de vida da API.

API	Última versão de prévia	Última versão da GA	Specifications	Descrição
Plano de controle	`2025-07-01-preview`	`2025-06-01`	Arquivos de especificação	A API do plano de controle é usada para operações como criação de recursos, implantação de modelos e outras tarefas de gerenciamento de recursos de nível superior. O plano de controle também governa o que é possível fazer com capacidades como Azure Resource Manager, Bicep, Terraform e CLI do Azure.
Plano de dados	`v1 preview`	`v1`	Arquivos de especificação	A API do plano de dados controla as operações de inferência e autoria.

Autenticação

O Azure OpenAI oferece dois métodos para autenticação. Você pode usar tanto API Keys quanto Microsoft Entra ID.

Autenticação de Chave API: Para esse tipo de autenticação, todas as requisições de API devem incluir a Chave API no api-key cabeçalho HTTP. O Quickstart fornece orientações sobre como fazer chamadas com esse tipo de autenticação.
Microsoft Entra ID: Você pode autenticar uma chamada API usando um token Microsoft Entra. Tokens de autenticação são incluídos em uma solicitação como cabeçalho Authorization . O token fornecido deve ser precedido por Bearer, por exemplo Bearer YOUR_AUTH_TOKEN. Você pode ler nosso guia prático sobre autenticação com Microsoft Entra ID.

Versionamento da API REST

As APIs de serviço são versionadas usando o api-version parâmetro de consulta. Todas as versões seguem a estrutura de datas YYYY-MM-DD. Por exemplo:

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01

Inferência de plano de dados

O restante deste artigo aborda as operações de imagem e áudio na versão ga da especificação de inferência do plano de dados Azure OpenAI. 2024-10-21

Para as operações de áudio e imagem de visualização, consulte a referência da API REST de áudio e imagem de visualização.

Transcrições - Criar

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Transcreve o áudio para a língua de entrada.

Parâmetros de URI

Nome	Em	Obrigatório	Tipo	Descrição
ponto de extremidade	caminho	Yes	cadeia url	Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: `https://aoairesource.openai.azure.com`. Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{your-resource-name}.openai.azure.com
deployment-id	caminho	Yes	cadeia	ID de implantação do modelo de fala para texto. Para informações sobre modelos suportados, veja [/azure/ai-foundry/openai/concepts/models#audio-models].
versão da API	consulta	Yes	cadeia	Versão da API

Cabeçalho da solicitação

Nome	Obrigatório	Tipo	Descrição
chave da API	Verdade	cadeia	Forneça a chave API do Azure OpenAI aqui

Corpo da solicitação

Content-Type: multipart/form-data (dados de formulário em múltiplas partes)

Nome	Tipo	Descrição	Obrigatório	Default
arquivo	cadeia	O arquivo de áudio é objeto para transcrever.	Yes
solicitação	cadeia	Um texto opcional para guiar o estilo do modelo ou continuar um segmento de áudio anterior. O prompt deve corresponder à linguagem do áudio.	No
formato_de_resposta	audioResponseFormat	Define o formato da saída.	No
Temperatura	number	A temperatura de amostragem, entre 0 e 1. Valores mais altos como 0,8 tornam a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornam mais focada e determinística. Se definido para 0, o modelo usará a probabilidade logarítmica para aumentar automaticamente a temperatura até que certos limites sejam atingidos.	No	0
linguagem	cadeia	O idioma do áudio de entrada. Fornecer a linguagem de entrada no formato ISO-639-1 melhorará a precisão e a latência.	No

Respostas

Código de status: 200

Descrição: OK

Tipo de conteúdo	Tipo	Descrição
application/json	audioResposta ou áudioVerboseResponse
texto/sem formatação	cadeia	Texto transcrito no formato de saída (quando response_format era de texto, VTT ou srt).

Exemplos

Example

Recebe texto transcrito e metadados associados a partir dos dados de áudio falados fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Respostas: Código de status: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Example

Recebe texto transcrito e metadados associados a partir dos dados de áudio falados fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respostas: Código de status: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Traduções - Criar

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

Transcreve e traduz áudio de entrada para texto em inglês.

Parâmetros de URI

Nome	Em	Obrigatório	Tipo	Descrição
ponto de extremidade	caminho	Yes	cadeia url	Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: `https://aoairesource.openai.azure.com`. Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{your-resource-name}.openai.azure.com
deployment-id	caminho	Yes	cadeia	ID de implantação do modelo sussurrante que foi implantado. Para informações sobre modelos suportados, veja [/azure/ai-foundry/openai/concepts/models#audio-models].
versão da API	consulta	Yes	cadeia	Versão da API

Cabeçalho da solicitação

Nome	Obrigatório	Tipo	Descrição
chave da API	Verdade	cadeia	Forneça a chave API do Azure OpenAI aqui

Corpo da solicitação

Content-Type: multipart/form-data (dados de formulário em múltiplas partes)

Nome	Tipo	Descrição	Obrigatório	Default
arquivo	cadeia	O arquivo de áudio para traduzir.	Yes
solicitação	cadeia	Um texto opcional para guiar o estilo do modelo ou continuar um segmento de áudio anterior. O prompt deve estar em inglês.	No
formato_de_resposta	audioResponseFormat	Define o formato da saída.	No
Temperatura	number	A temperatura de amostragem, entre 0 e 1. Valores mais altos como 0,8 tornam a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornam mais focada e determinística. Se definido para 0, o modelo usará a probabilidade logarítmica para aumentar automaticamente a temperatura até que certos limites sejam atingidos.	No	0

Respostas

Código de status: 200

Descrição: OK

Tipo de conteúdo	Tipo	Descrição
application/json	audioResposta ou áudioVerboseResponse
texto/sem formatação	cadeia	Texto transcrito no formato de saída (quando response_format era de texto, VTT ou srt).

Exemplos

Example

Obtém texto transcrito em inglês e metadados associados a partir dos dados de áudio falados fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respostas: Código de status: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Example

Obtém texto transcrito em inglês e metadados associados a partir dos dados de áudio falados fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respostas: Código de status: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Geração de imagem

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

Gera um lote de imagens a partir de uma legenda de texto em uma determinada implantação do modelo dall-e

Parâmetros de URI

Nome	Em	Obrigatório	Tipo	Descrição
ponto de extremidade	caminho	Yes	cadeia url	Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: `https://aoairesource.openai.azure.com`. Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{your-resource-name}.openai.azure.com
deployment-id	caminho	Yes	cadeia	ID de implantação do modelo dall-e que foi implantado.
versão da API	consulta	Yes	cadeia	Versão da API

Cabeçalho da solicitação

Nome	Obrigatório	Tipo	Descrição
chave da API	Verdade	cadeia	Forneça a chave API do Azure OpenAI aqui

Corpo da solicitação

Tipo de conteúdo: application/json

Nome	Tipo	Descrição	Obrigatório	Default
solicitação	cadeia	Uma descrição em texto da(s) imagem(s) desejada(s). O comprimento máximo é de 4.000 caracteres.	Yes
n	inteiro	O número de imagens a serem geradas.	No	1
size	imageSize	O tamanho das imagens geradas.	No	1024x1024
formato_de_resposta	imagesResponseFormat	O formato no qual as imagens geradas são retornadas.	No	url
usuário	cadeia	Um identificador único representando seu usuário final, que pode ajudar a monitorar e detectar abusos.	No
Qualidade	imageQuality	A qualidade da imagem que será gerada.	No	padrão
estilo	imageStyle	O estilo das imagens geradas.	No	Vívido

Respostas

Código de status: 200

Descrição: Ok

Tipo de conteúdo	Tipo	Descrição
application/json	generateImagesResponse

Código de status: padrão

Descrição: Ocorreu um erro.

Tipo de conteúdo	Tipo	Descrição
application/json	dalleErrorResponse

Exemplos

Example

Cria imagens com um prompt.

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

{
 "prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
 "n": 1,
 "style": "natural",
 "quality": "standard"
}

Respostas: Código de status: 200

{
  "body": {
    "created": 1698342300,
    "data": [
      {
        "revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
        "prompt_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          },
          "profanity": {
            "detected": false,
            "filtered": false
          }
        },
        "url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
        "content_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          }
        }
      }
    ]
  }
}

Componentes

Para obter as definições de esquema usadas por chat, conclusões, inserções e outras operações de texto, consulte a referência da API REST do Azure OpenAI. Os esquemas a seguir dão suporte às operações de imagem e áudio nesta página.

innerErrorCode

Códigos de erro para o objeto de erro interno.

Descrição: Códigos de erro para o objeto de erro interno.

Tipo: cadeia de caracteres

Padrão:

Nome do Enum: InnerErrorCode

Valores de enumeração:

Valor	Descrição
ResponsibleAIPolicyViolation	O prompt violou uma das outras regras de filtro de conteúdo.

dalleErrorResponse

Nome	Tipo	Descrição	Obrigatório	Default
erro	dalleError		No

dalleError

Nome	Tipo	Descrição	Obrigatório
param	cadeia		No
tipo	cadeia		No
inner_error	dalleInnerError	Erro interno com detalhes adicionais.	No

dalleInnerError

Erro interno com detalhes adicionais.

Nome	Tipo	Descrição	Obrigatório
codificar	innerErrorCode	Códigos de erro para o objeto de erro interno.	No
content_filter_results	dalleFilterResults	Informações sobre a categoria de filtragem de conteúdo (ódio, sexual, violência, self_harm), se ela foi detectada, bem como o nível de gravidade (very_low, baixo, médio, alto que determina a intensidade e o nível de risco do conteúdo nocivo) e se foi filtrado ou não. Informações sobre conteúdo de jailbreak e palavrões, se foram detectados e se foram filtrados ou não. E informações sobre a lista de bloqueio de clientes, se foi filtrada e seu id.	No
revised_prompt	cadeia	O prompt usado para gerar a imagem, caso houvesse alguma revisão no prompt.	No

contentFilterSeverityResult

Nome	Tipo	Descrição	Obrigatório	Default
Filtrada	booleano		Yes
severity	cadeia		No

contentFilterDetectedResult

Nome	Tipo	Descrição	Obrigatório	Default
Filtrada	booleano		Yes
detectado	booleano		No

dalleFilterResults

Informações sobre a categoria de filtragem de conteúdo (ódio, sexual, violência, self_harm), se ela foi detectada, bem como o nível de gravidade (very_low, baixo, médio, alto que determina a intensidade e o nível de risco do conteúdo nocivo) e se foi filtrado ou não. Informações sobre conteúdo de jailbreak e palavrões, se foram detectados e se foram filtrados ou não. E informações sobre a lista de bloqueio de clientes, se foi filtrada e seu id.

Nome	Tipo	Obrigatório
sexual	Resultado de Severidade do Filtro de Conteúdo	No
Violência	Resultado de Severidade do Filtro de Conteúdo	No
Odeio	Resultado de Severidade do Filtro de Conteúdo	No
self_harm	Resultado de Severidade do Filtro de Conteúdo	No
Profanidade	Resultado de Filtro de Conteúdo Detectado	No
jailbreak	Resultado de Filtro de Conteúdo Detectado	No

audioResponse

Resposta de tradução ou transcrição quando response_format era json

Nome	Tipo	Descrição	Obrigatório	Default
enviar SMS	cadeia	Texto traduzido ou transcrito.	Yes

audioVerboseResponse

Resposta de tradução ou transcrição quando response_format foi verbose_json

Nome	Tipo	Descrição	Obrigatório
enviar SMS	cadeia	Texto traduzido ou transcrito.	Yes
tarefa	cadeia	Tipo de tarefa de áudio.	No
linguagem	cadeia	Language.	No
duração	number	Duração.	No
Segmentos	matriz		No

audioResponseFormat

Define o formato da saída.

Descrição: Define o formato da saída.

Tipo: cadeia de caracteres

Padrão:

Valores de enumeração:

Json
enviar SMS
srt
verbose_json
vtt

imageQuality

A qualidade da imagem que será gerada.

Descrição: A qualidade da imagem que será gerada.

Tipo: cadeia de caracteres

Padrão: padrão

Nome Enum: Quality

Valores de enumeração:

Valor	Descrição
padrão	Qualidade padrão cria imagens com qualidade padrão.
hd	A qualidade HD cria imagens com detalhes mais finos e maior consistência em toda a imagem.

imagesResponseFormat

O formato no qual as imagens geradas são retornadas.

Descrição: O formato no qual as imagens geradas são retornadas.

Tipo: cadeia de caracteres

Padrão: url

Nome do enum: ImagesResponseFormat

Valores de enumeração:

Valor	Descrição
url	A URL que oferece acesso temporário para baixar as imagens geradas.
b64_json	As imagens geradas são retornadas como strings codificadas em base64.

imageSize

O tamanho das imagens geradas.

Descrição: O tamanho das imagens geradas.

Tipo: cadeia de caracteres

Padrão: 1024x1024

Nome Enum: Tamanho

Valores de enumeração:

Valor	Descrição
1792x1024	O tamanho desejado da imagem gerada é 1792x1024 pixels.
1024x1792	O tamanho desejado da imagem gerada é 1024x1792 pixels.
1024x1024	O tamanho desejado da imagem gerada é 1024x1024 pixels.

imageStyle

O estilo das imagens geradas.

Descrição: O estilo das imagens geradas.

Tipo: cadeia de caracteres

Padrão: vívido

Nome Enum: Style

Valores de enumeração:

Valor	Descrição
Vívido	Vivid cria imagens hiper-realistas e dramáticas.
natural	Natural cria imagens mais naturais e menos hiper-realistas.

generateImagesResponse

Nome	Tipo	Descrição	Obrigatório	Default
criado	inteiro	O carimbo de data do unix quando a operação foi criada.	Yes
dados	matriz	Os dados de resultado da operação, se bem-sucedidos	Yes

Próximas Etapas

Saiba mais sobre modelos e ajuste fino com a API REST. Saiba mais sobre os modelos underlying que alimentam Azure OpenAI.

Comentários

Esta página foi útil?

Last updated on 2026-06-24

Azure referência da API REST de áudio e imagem OpenAI (2024-10-21)

Especificações de API

Autenticação

Versionamento da API REST

Inferência de plano de dados

Transcrições - Criar

Parâmetros de URI

Cabeçalho da solicitação

Corpo da solicitação

Respostas

Exemplos

Example

Example

Traduções - Criar

Parâmetros de URI

Cabeçalho da solicitação

Corpo da solicitação

Respostas

Exemplos

Example

Example

Geração de imagem

Parâmetros de URI

Cabeçalho da solicitação

Corpo da solicitação

Respostas

Exemplos

Example

Componentes

innerErrorCode

dalleErrorResponse

dalleError

dalleInnerError

contentFilterSeverityResult

contentFilterDetectedResult

dalleFilterResults

audioResponse

audioVerboseResponse

audioResponseFormat

imageQuality

imagesResponseFormat

imageSize

imageStyle

generateImagesResponse

Próximas Etapas

Comentários

Recursos adicionais