Azure referência da API REST de áudio e imagem OpenAI (2024-10-21)

Este artigo documenta a geração de imagem e as operações da API REST de inferência do plano de dados de áudio (fala) para Azure OpenAI na 2024-10-21 versão ga. Para conclusões de chat, inserções, conclusões e todas as outras operações, consulte o Azure referência oficial da API REST do OpenAI.

Especificações de API

Gerenciar e interagir com modelos e recursos do OpenAI do Azure é dividido em três superfícies principais de API:

  • Painel de controle
  • Plano de dados - autoria
  • Plano de dados - inferência

Cada superfície/especificação de API encapsula um conjunto diferente de capacidades do Azure OpenAI. Cada API possui seu próprio conjunto único de pré-visualizações e versões estáveis/geralmente disponíveis (GA). Os lançamentos de prévia atualmente tendem a seguir uma cadência mensal.

Importante

Agora há uma nova API de inferência de pré-visualização. Saiba mais em nosso guia do ciclo de vida da API.

API Última versão de prévia Última versão da GA Specifications Descrição
Plano de controle 2025-07-01-preview 2025-06-01 Arquivos de especificação A API do plano de controle é usada para operações como criação de recursos, implantação de modelos e outras tarefas de gerenciamento de recursos de nível superior. O plano de controle também governa o que é possível fazer com capacidades como Azure Resource Manager, Bicep, Terraform e CLI do Azure.
Plano de dados v1 preview v1 Arquivos de especificação A API do plano de dados controla as operações de inferência e autoria.

Autenticação

O Azure OpenAI oferece dois métodos para autenticação. Você pode usar tanto API Keys quanto Microsoft Entra ID.

  • Autenticação de Chave API: Para esse tipo de autenticação, todas as requisições de API devem incluir a Chave API no api-key cabeçalho HTTP. O Quickstart fornece orientações sobre como fazer chamadas com esse tipo de autenticação.

  • Microsoft Entra ID: Você pode autenticar uma chamada API usando um token Microsoft Entra. Tokens de autenticação são incluídos em uma solicitação como cabeçalho Authorization . O token fornecido deve ser precedido por Bearer, por exemplo Bearer YOUR_AUTH_TOKEN. Você pode ler nosso guia prático sobre autenticação com Microsoft Entra ID.

Versionamento da API REST

As APIs de serviço são versionadas usando o api-version parâmetro de consulta. Todas as versões seguem a estrutura de datas YYYY-MM-DD. Por exemplo:

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01

Inferência de plano de dados

O restante deste artigo aborda as operações de imagem e áudio na versão ga da especificação de inferência do plano de dados Azure OpenAI. 2024-10-21

Para as operações de áudio e imagem de visualização, consulte a referência da API REST de áudio e imagem de visualização.

Transcrições - Criar

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Transcreve o áudio para a língua de entrada.

Parâmetros de URI

Nome Em Obrigatório Tipo Descrição
ponto de extremidade caminho Yes cadeia
url
Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: https://aoairesource.openai.azure.com. Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{your-resource-name}.openai.azure.com
deployment-id caminho Yes cadeia ID de implantação do modelo de fala para texto.

Para informações sobre modelos suportados, veja [/azure/ai-foundry/openai/concepts/models#audio-models].
versão da API consulta Yes cadeia Versão da API

Cabeçalho da solicitação

Nome Obrigatório Tipo Descrição
chave da API Verdade cadeia Forneça a chave API do Azure OpenAI aqui

Corpo da solicitação

Content-Type: multipart/form-data (dados de formulário em múltiplas partes)

Nome Tipo Descrição Obrigatório Default
arquivo cadeia O arquivo de áudio é objeto para transcrever. Yes
solicitação cadeia Um texto opcional para guiar o estilo do modelo ou continuar um segmento de áudio anterior. O prompt deve corresponder à linguagem do áudio. No
formato_de_resposta audioResponseFormat Define o formato da saída. No
Temperatura number A temperatura de amostragem, entre 0 e 1. Valores mais altos como 0,8 tornam a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornam mais focada e determinística. Se definido para 0, o modelo usará a probabilidade logarítmica para aumentar automaticamente a temperatura até que certos limites sejam atingidos. No 0
linguagem cadeia O idioma do áudio de entrada. Fornecer a linguagem de entrada no formato ISO-639-1 melhorará a precisão e a latência. No

Respostas

Código de status: 200

Descrição: OK

Tipo de conteúdo Tipo Descrição
application/json audioResposta ou áudioVerboseResponse
texto/sem formatação cadeia Texto transcrito no formato de saída (quando response_format era de texto, VTT ou srt).

Exemplos

Example

Recebe texto transcrito e metadados associados a partir dos dados de áudio falados fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Respostas: Código de status: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Example

Recebe texto transcrito e metadados associados a partir dos dados de áudio falados fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respostas: Código de status: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Traduções - Criar

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

Transcreve e traduz áudio de entrada para texto em inglês.

Parâmetros de URI

Nome Em Obrigatório Tipo Descrição
ponto de extremidade caminho Yes cadeia
url
Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: https://aoairesource.openai.azure.com. Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{your-resource-name}.openai.azure.com
deployment-id caminho Yes cadeia ID de implantação do modelo sussurrante que foi implantado.

Para informações sobre modelos suportados, veja [/azure/ai-foundry/openai/concepts/models#audio-models].
versão da API consulta Yes cadeia Versão da API

Cabeçalho da solicitação

Nome Obrigatório Tipo Descrição
chave da API Verdade cadeia Forneça a chave API do Azure OpenAI aqui

Corpo da solicitação

Content-Type: multipart/form-data (dados de formulário em múltiplas partes)

Nome Tipo Descrição Obrigatório Default
arquivo cadeia O arquivo de áudio para traduzir. Yes
solicitação cadeia Um texto opcional para guiar o estilo do modelo ou continuar um segmento de áudio anterior. O prompt deve estar em inglês. No
formato_de_resposta audioResponseFormat Define o formato da saída. No
Temperatura number A temperatura de amostragem, entre 0 e 1. Valores mais altos como 0,8 tornam a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornam mais focada e determinística. Se definido para 0, o modelo usará a probabilidade logarítmica para aumentar automaticamente a temperatura até que certos limites sejam atingidos. No 0

Respostas

Código de status: 200

Descrição: OK

Tipo de conteúdo Tipo Descrição
application/json audioResposta ou áudioVerboseResponse
texto/sem formatação cadeia Texto transcrito no formato de saída (quando response_format era de texto, VTT ou srt).

Exemplos

Example

Obtém texto transcrito em inglês e metadados associados a partir dos dados de áudio falados fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respostas: Código de status: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Example

Obtém texto transcrito em inglês e metadados associados a partir dos dados de áudio falados fornecidos.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respostas: Código de status: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Geração de imagem

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

Gera um lote de imagens a partir de uma legenda de texto em uma determinada implantação do modelo dall-e

Parâmetros de URI

Nome Em Obrigatório Tipo Descrição
ponto de extremidade caminho Yes cadeia
url
Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: https://aoairesource.openai.azure.com. Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{your-resource-name}.openai.azure.com
deployment-id caminho Yes cadeia ID de implantação do modelo dall-e que foi implantado.
versão da API consulta Yes cadeia Versão da API

Cabeçalho da solicitação

Nome Obrigatório Tipo Descrição
chave da API Verdade cadeia Forneça a chave API do Azure OpenAI aqui

Corpo da solicitação

Tipo de conteúdo: application/json

Nome Tipo Descrição Obrigatório Default
solicitação cadeia Uma descrição em texto da(s) imagem(s) desejada(s). O comprimento máximo é de 4.000 caracteres. Yes
n inteiro O número de imagens a serem geradas. No 1
size imageSize O tamanho das imagens geradas. No 1024x1024
formato_de_resposta imagesResponseFormat O formato no qual as imagens geradas são retornadas. No url
usuário cadeia Um identificador único representando seu usuário final, que pode ajudar a monitorar e detectar abusos. No
Qualidade imageQuality A qualidade da imagem que será gerada. No padrão
estilo imageStyle O estilo das imagens geradas. No Vívido

Respostas

Código de status: 200

Descrição: Ok

Tipo de conteúdo Tipo Descrição
application/json generateImagesResponse

Código de status: padrão

Descrição: Ocorreu um erro.

Tipo de conteúdo Tipo Descrição
application/json dalleErrorResponse

Exemplos

Example

Cria imagens com um prompt.

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

{
 "prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
 "n": 1,
 "style": "natural",
 "quality": "standard"
}

Respostas: Código de status: 200

{
  "body": {
    "created": 1698342300,
    "data": [
      {
        "revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
        "prompt_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          },
          "profanity": {
            "detected": false,
            "filtered": false
          }
        },
        "url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
        "content_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          }
        }
      }
    ]
  }
}

Componentes

Para obter as definições de esquema usadas por chat, conclusões, inserções e outras operações de texto, consulte a referência da API REST do Azure OpenAI. Os esquemas a seguir dão suporte às operações de imagem e áudio nesta página.

innerErrorCode

Códigos de erro para o objeto de erro interno.

Descrição: Códigos de erro para o objeto de erro interno.

Tipo: cadeia de caracteres

Padrão:

Nome do Enum: InnerErrorCode

Valores de enumeração:

Valor Descrição
ResponsibleAIPolicyViolation O prompt violou uma das outras regras de filtro de conteúdo.

dalleErrorResponse

Nome Tipo Descrição Obrigatório Default
erro dalleError No

dalleError

Nome Tipo Descrição Obrigatório Default
param cadeia No
tipo cadeia No
inner_error dalleInnerError Erro interno com detalhes adicionais. No

dalleInnerError

Erro interno com detalhes adicionais.

Nome Tipo Descrição Obrigatório Default
codificar innerErrorCode Códigos de erro para o objeto de erro interno. No
content_filter_results dalleFilterResults Informações sobre a categoria de filtragem de conteúdo (ódio, sexual, violência, self_harm), se ela foi detectada, bem como o nível de gravidade (very_low, baixo, médio, alto que determina a intensidade e o nível de risco do conteúdo nocivo) e se foi filtrado ou não. Informações sobre conteúdo de jailbreak e palavrões, se foram detectados e se foram filtrados ou não. E informações sobre a lista de bloqueio de clientes, se foi filtrada e seu id. No
revised_prompt cadeia O prompt usado para gerar a imagem, caso houvesse alguma revisão no prompt. No

contentFilterSeverityResult

Nome Tipo Descrição Obrigatório Default
Filtrada booleano Yes
severity cadeia No

contentFilterDetectedResult

Nome Tipo Descrição Obrigatório Default
Filtrada booleano Yes
detectado booleano No

dalleFilterResults

Informações sobre a categoria de filtragem de conteúdo (ódio, sexual, violência, self_harm), se ela foi detectada, bem como o nível de gravidade (very_low, baixo, médio, alto que determina a intensidade e o nível de risco do conteúdo nocivo) e se foi filtrado ou não. Informações sobre conteúdo de jailbreak e palavrões, se foram detectados e se foram filtrados ou não. E informações sobre a lista de bloqueio de clientes, se foi filtrada e seu id.

Nome Tipo Descrição Obrigatório Default
sexual Resultado de Severidade do Filtro de Conteúdo No
Violência Resultado de Severidade do Filtro de Conteúdo No
Odeio Resultado de Severidade do Filtro de Conteúdo No
self_harm Resultado de Severidade do Filtro de Conteúdo No
Profanidade Resultado de Filtro de Conteúdo Detectado No
jailbreak Resultado de Filtro de Conteúdo Detectado No

audioResponse

Resposta de tradução ou transcrição quando response_format era json

Nome Tipo Descrição Obrigatório Default
enviar SMS cadeia Texto traduzido ou transcrito. Yes

audioVerboseResponse

Resposta de tradução ou transcrição quando response_format foi verbose_json

Nome Tipo Descrição Obrigatório Default
enviar SMS cadeia Texto traduzido ou transcrito. Yes
tarefa cadeia Tipo de tarefa de áudio. No
linguagem cadeia Language. No
duração number Duração. No
Segmentos matriz No

audioResponseFormat

Define o formato da saída.

Descrição: Define o formato da saída.

Tipo: cadeia de caracteres

Padrão:

Valores de enumeração:

  • Json
  • enviar SMS
  • srt
  • verbose_json
  • vtt

imageQuality

A qualidade da imagem que será gerada.

Descrição: A qualidade da imagem que será gerada.

Tipo: cadeia de caracteres

Padrão: padrão

Nome Enum: Quality

Valores de enumeração:

Valor Descrição
padrão Qualidade padrão cria imagens com qualidade padrão.
hd A qualidade HD cria imagens com detalhes mais finos e maior consistência em toda a imagem.

imagesResponseFormat

O formato no qual as imagens geradas são retornadas.

Descrição: O formato no qual as imagens geradas são retornadas.

Tipo: cadeia de caracteres

Padrão: url

Nome do enum: ImagesResponseFormat

Valores de enumeração:

Valor Descrição
url A URL que oferece acesso temporário para baixar as imagens geradas.
b64_json As imagens geradas são retornadas como strings codificadas em base64.

imageSize

O tamanho das imagens geradas.

Descrição: O tamanho das imagens geradas.

Tipo: cadeia de caracteres

Padrão: 1024x1024

Nome Enum: Tamanho

Valores de enumeração:

Valor Descrição
1792x1024 O tamanho desejado da imagem gerada é 1792x1024 pixels.
1024x1792 O tamanho desejado da imagem gerada é 1024x1792 pixels.
1024x1024 O tamanho desejado da imagem gerada é 1024x1024 pixels.

imageStyle

O estilo das imagens geradas.

Descrição: O estilo das imagens geradas.

Tipo: cadeia de caracteres

Padrão: vívido

Nome Enum: Style

Valores de enumeração:

Valor Descrição
Vívido Vivid cria imagens hiper-realistas e dramáticas.
natural Natural cria imagens mais naturais e menos hiper-realistas.

generateImagesResponse

Nome Tipo Descrição Obrigatório Default
criado inteiro O carimbo de data do unix quando a operação foi criada. Yes
dados matriz Os dados de resultado da operação, se bem-sucedidos Yes

Próximas Etapas 

Saiba mais sobre modelos e ajuste fino com a API REST. Saiba mais sobre os modelos underlying que alimentam Azure OpenAI.