Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo documenta a geração de imagem e as operações da API REST de inferência do plano de dados de áudio (fala) para Azure OpenAI na 2024-10-21 versão ga. Para conclusões de chat, inserções, conclusões e todas as outras operações, consulte o Azure referência oficial da API REST do OpenAI.
Especificações de API
Gerenciar e interagir com modelos e recursos do OpenAI do Azure é dividido em três superfícies principais de API:
- Painel de controle
- Plano de dados - autoria
- Plano de dados - inferência
Cada superfície/especificação de API encapsula um conjunto diferente de capacidades do Azure OpenAI. Cada API possui seu próprio conjunto único de pré-visualizações e versões estáveis/geralmente disponíveis (GA). Os lançamentos de prévia atualmente tendem a seguir uma cadência mensal.
Importante
Agora há uma nova API de inferência de pré-visualização. Saiba mais em nosso guia do ciclo de vida da API.
| API | Última versão de prévia | Última versão da GA | Specifications | Descrição |
|---|---|---|---|---|
| Plano de controle | 2025-07-01-preview |
2025-06-01 |
Arquivos de especificação | A API do plano de controle é usada para operações como criação de recursos, implantação de modelos e outras tarefas de gerenciamento de recursos de nível superior. O plano de controle também governa o que é possível fazer com capacidades como Azure Resource Manager, Bicep, Terraform e CLI do Azure. |
| Plano de dados | v1 preview |
v1 |
Arquivos de especificação | A API do plano de dados controla as operações de inferência e autoria. |
Autenticação
O Azure OpenAI oferece dois métodos para autenticação. Você pode usar tanto API Keys quanto Microsoft Entra ID.
Autenticação de Chave API: Para esse tipo de autenticação, todas as requisições de API devem incluir a Chave API no
api-keycabeçalho HTTP. O Quickstart fornece orientações sobre como fazer chamadas com esse tipo de autenticação.Microsoft Entra ID: Você pode autenticar uma chamada API usando um token Microsoft Entra. Tokens de autenticação são incluídos em uma solicitação como cabeçalho Authorization. O token fornecido deve ser precedido porBearer, por exemploBearer YOUR_AUTH_TOKEN. Você pode ler nosso guia prático sobre autenticação com Microsoft Entra ID.
Versionamento da API REST
As APIs de serviço são versionadas usando o api-version parâmetro de consulta. Todas as versões seguem a estrutura de datas YYYY-MM-DD. Por exemplo:
POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01
Inferência de plano de dados
O restante deste artigo aborda as operações de imagem e áudio na versão ga da especificação de inferência do plano de dados Azure OpenAI. 2024-10-21
Para as operações de áudio e imagem de visualização, consulte a referência da API REST de áudio e imagem de visualização.
Transcrições - Criar
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21
Transcreve o áudio para a língua de entrada.
Parâmetros de URI
| Nome | Em | Obrigatório | Tipo | Descrição |
|---|---|---|---|---|
| ponto de extremidade | caminho | Yes | cadeia url |
Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: https://aoairesource.openai.azure.com. Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{your-resource-name}.openai.azure.com |
| deployment-id | caminho | Yes | cadeia | ID de implantação do modelo de fala para texto. Para informações sobre modelos suportados, veja [/azure/ai-foundry/openai/concepts/models#audio-models]. |
| versão da API | consulta | Yes | cadeia | Versão da API |
Cabeçalho da solicitação
| Nome | Obrigatório | Tipo | Descrição |
|---|---|---|---|
| chave da API | Verdade | cadeia | Forneça a chave API do Azure OpenAI aqui |
Corpo da solicitação
Content-Type: multipart/form-data (dados de formulário em múltiplas partes)
| Nome | Tipo | Descrição | Obrigatório | Default |
|---|---|---|---|---|
| arquivo | cadeia | O arquivo de áudio é objeto para transcrever. | Yes | |
| solicitação | cadeia | Um texto opcional para guiar o estilo do modelo ou continuar um segmento de áudio anterior. O prompt deve corresponder à linguagem do áudio. | No | |
| formato_de_resposta | audioResponseFormat | Define o formato da saída. | No | |
| Temperatura | number | A temperatura de amostragem, entre 0 e 1. Valores mais altos como 0,8 tornam a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornam mais focada e determinística. Se definido para 0, o modelo usará a probabilidade logarítmica para aumentar automaticamente a temperatura até que certos limites sejam atingidos. | No | 0 |
| linguagem | cadeia | O idioma do áudio de entrada. Fornecer a linguagem de entrada no formato ISO-639-1 melhorará a precisão e a latência. | No |
Respostas
Código de status: 200
Descrição: OK
| Tipo de conteúdo | Tipo | Descrição |
|---|---|---|
| application/json | audioResposta ou áudioVerboseResponse | |
| texto/sem formatação | cadeia | Texto transcrito no formato de saída (quando response_format era de texto, VTT ou srt). |
Exemplos
Example
Recebe texto transcrito e metadados associados a partir dos dados de áudio falados fornecidos.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21
Respostas: Código de status: 200
{
"body": {
"text": "A structured object when requesting json or verbose_json"
}
}
Example
Recebe texto transcrito e metadados associados a partir dos dados de áudio falados fornecidos.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21
"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"
Respostas: Código de status: 200
{
"type": "string",
"example": "plain text when requesting text, srt, or vtt"
}
Traduções - Criar
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21
Transcreve e traduz áudio de entrada para texto em inglês.
Parâmetros de URI
| Nome | Em | Obrigatório | Tipo | Descrição |
|---|---|---|---|---|
| ponto de extremidade | caminho | Yes | cadeia url |
Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: https://aoairesource.openai.azure.com. Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{your-resource-name}.openai.azure.com |
| deployment-id | caminho | Yes | cadeia | ID de implantação do modelo sussurrante que foi implantado. Para informações sobre modelos suportados, veja [/azure/ai-foundry/openai/concepts/models#audio-models]. |
| versão da API | consulta | Yes | cadeia | Versão da API |
Cabeçalho da solicitação
| Nome | Obrigatório | Tipo | Descrição |
|---|---|---|---|
| chave da API | Verdade | cadeia | Forneça a chave API do Azure OpenAI aqui |
Corpo da solicitação
Content-Type: multipart/form-data (dados de formulário em múltiplas partes)
| Nome | Tipo | Descrição | Obrigatório | Default |
|---|---|---|---|---|
| arquivo | cadeia | O arquivo de áudio para traduzir. | Yes | |
| solicitação | cadeia | Um texto opcional para guiar o estilo do modelo ou continuar um segmento de áudio anterior. O prompt deve estar em inglês. | No | |
| formato_de_resposta | audioResponseFormat | Define o formato da saída. | No | |
| Temperatura | number | A temperatura de amostragem, entre 0 e 1. Valores mais altos como 0,8 tornam a saída mais aleatória, enquanto valores mais baixos como 0,2 a tornam mais focada e determinística. Se definido para 0, o modelo usará a probabilidade logarítmica para aumentar automaticamente a temperatura até que certos limites sejam atingidos. | No | 0 |
Respostas
Código de status: 200
Descrição: OK
| Tipo de conteúdo | Tipo | Descrição |
|---|---|---|
| application/json | audioResposta ou áudioVerboseResponse | |
| texto/sem formatação | cadeia | Texto transcrito no formato de saída (quando response_format era de texto, VTT ou srt). |
Exemplos
Example
Obtém texto transcrito em inglês e metadados associados a partir dos dados de áudio falados fornecidos.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21
"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"
Respostas: Código de status: 200
{
"body": {
"text": "A structured object when requesting json or verbose_json"
}
}
Example
Obtém texto transcrito em inglês e metadados associados a partir dos dados de áudio falados fornecidos.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21
"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"
Respostas: Código de status: 200
{
"type": "string",
"example": "plain text when requesting text, srt, or vtt"
}
Geração de imagem
POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21
Gera um lote de imagens a partir de uma legenda de texto em uma determinada implantação do modelo dall-e
Parâmetros de URI
| Nome | Em | Obrigatório | Tipo | Descrição |
|---|---|---|---|---|
| ponto de extremidade | caminho | Yes | cadeia url |
Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: https://aoairesource.openai.azure.com. Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{your-resource-name}.openai.azure.com |
| deployment-id | caminho | Yes | cadeia | ID de implantação do modelo dall-e que foi implantado. |
| versão da API | consulta | Yes | cadeia | Versão da API |
Cabeçalho da solicitação
| Nome | Obrigatório | Tipo | Descrição |
|---|---|---|---|
| chave da API | Verdade | cadeia | Forneça a chave API do Azure OpenAI aqui |
Corpo da solicitação
Tipo de conteúdo: application/json
| Nome | Tipo | Descrição | Obrigatório | Default |
|---|---|---|---|---|
| solicitação | cadeia | Uma descrição em texto da(s) imagem(s) desejada(s). O comprimento máximo é de 4.000 caracteres. | Yes | |
| n | inteiro | O número de imagens a serem geradas. | No | 1 |
| size | imageSize | O tamanho das imagens geradas. | No | 1024x1024 |
| formato_de_resposta | imagesResponseFormat | O formato no qual as imagens geradas são retornadas. | No | url |
| usuário | cadeia | Um identificador único representando seu usuário final, que pode ajudar a monitorar e detectar abusos. | No | |
| Qualidade | imageQuality | A qualidade da imagem que será gerada. | No | padrão |
| estilo | imageStyle | O estilo das imagens geradas. | No | Vívido |
Respostas
Código de status: 200
Descrição: Ok
| Tipo de conteúdo | Tipo | Descrição |
|---|---|---|
| application/json | generateImagesResponse |
Código de status: padrão
Descrição: Ocorreu um erro.
| Tipo de conteúdo | Tipo | Descrição |
|---|---|---|
| application/json | dalleErrorResponse |
Exemplos
Example
Cria imagens com um prompt.
POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21
{
"prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
"n": 1,
"style": "natural",
"quality": "standard"
}
Respostas: Código de status: 200
{
"body": {
"created": 1698342300,
"data": [
{
"revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
"prompt_filter_results": {
"sexual": {
"severity": "safe",
"filtered": false
},
"violence": {
"severity": "safe",
"filtered": false
},
"hate": {
"severity": "safe",
"filtered": false
},
"self_harm": {
"severity": "safe",
"filtered": false
},
"profanity": {
"detected": false,
"filtered": false
}
},
"url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
"content_filter_results": {
"sexual": {
"severity": "safe",
"filtered": false
},
"violence": {
"severity": "safe",
"filtered": false
},
"hate": {
"severity": "safe",
"filtered": false
},
"self_harm": {
"severity": "safe",
"filtered": false
}
}
}
]
}
}
Componentes
Para obter as definições de esquema usadas por chat, conclusões, inserções e outras operações de texto, consulte a referência da API REST do Azure OpenAI. Os esquemas a seguir dão suporte às operações de imagem e áudio nesta página.
innerErrorCode
Códigos de erro para o objeto de erro interno.
Descrição: Códigos de erro para o objeto de erro interno.
Tipo: cadeia de caracteres
Padrão:
Nome do Enum: InnerErrorCode
Valores de enumeração:
| Valor | Descrição |
|---|---|
| ResponsibleAIPolicyViolation | O prompt violou uma das outras regras de filtro de conteúdo. |
dalleErrorResponse
| Nome | Tipo | Descrição | Obrigatório | Default |
|---|---|---|---|---|
| erro | dalleError | No |
dalleError
| Nome | Tipo | Descrição | Obrigatório | Default |
|---|---|---|---|---|
| param | cadeia | No | ||
| tipo | cadeia | No | ||
| inner_error | dalleInnerError | Erro interno com detalhes adicionais. | No |
dalleInnerError
Erro interno com detalhes adicionais.
| Nome | Tipo | Descrição | Obrigatório | Default |
|---|---|---|---|---|
| codificar | innerErrorCode | Códigos de erro para o objeto de erro interno. | No | |
| content_filter_results | dalleFilterResults | Informações sobre a categoria de filtragem de conteúdo (ódio, sexual, violência, self_harm), se ela foi detectada, bem como o nível de gravidade (very_low, baixo, médio, alto que determina a intensidade e o nível de risco do conteúdo nocivo) e se foi filtrado ou não. Informações sobre conteúdo de jailbreak e palavrões, se foram detectados e se foram filtrados ou não. E informações sobre a lista de bloqueio de clientes, se foi filtrada e seu id. | No | |
| revised_prompt | cadeia | O prompt usado para gerar a imagem, caso houvesse alguma revisão no prompt. | No |
contentFilterSeverityResult
| Nome | Tipo | Descrição | Obrigatório | Default |
|---|---|---|---|---|
| Filtrada | booleano | Yes | ||
| severity | cadeia | No |
contentFilterDetectedResult
| Nome | Tipo | Descrição | Obrigatório | Default |
|---|---|---|---|---|
| Filtrada | booleano | Yes | ||
| detectado | booleano | No |
dalleFilterResults
Informações sobre a categoria de filtragem de conteúdo (ódio, sexual, violência, self_harm), se ela foi detectada, bem como o nível de gravidade (very_low, baixo, médio, alto que determina a intensidade e o nível de risco do conteúdo nocivo) e se foi filtrado ou não. Informações sobre conteúdo de jailbreak e palavrões, se foram detectados e se foram filtrados ou não. E informações sobre a lista de bloqueio de clientes, se foi filtrada e seu id.
| Nome | Tipo | Descrição | Obrigatório | Default |
|---|---|---|---|---|
| sexual | Resultado de Severidade do Filtro de Conteúdo | No | ||
| Violência | Resultado de Severidade do Filtro de Conteúdo | No | ||
| Odeio | Resultado de Severidade do Filtro de Conteúdo | No | ||
| self_harm | Resultado de Severidade do Filtro de Conteúdo | No | ||
| Profanidade | Resultado de Filtro de Conteúdo Detectado | No | ||
| jailbreak | Resultado de Filtro de Conteúdo Detectado | No |
audioResponse
Resposta de tradução ou transcrição quando response_format era json
| Nome | Tipo | Descrição | Obrigatório | Default |
|---|---|---|---|---|
| enviar SMS | cadeia | Texto traduzido ou transcrito. | Yes |
audioVerboseResponse
Resposta de tradução ou transcrição quando response_format foi verbose_json
| Nome | Tipo | Descrição | Obrigatório | Default |
|---|---|---|---|---|
| enviar SMS | cadeia | Texto traduzido ou transcrito. | Yes | |
| tarefa | cadeia | Tipo de tarefa de áudio. | No | |
| linguagem | cadeia | Language. | No | |
| duração | number | Duração. | No | |
| Segmentos | matriz | No |
audioResponseFormat
Define o formato da saída.
Descrição: Define o formato da saída.
Tipo: cadeia de caracteres
Padrão:
Valores de enumeração:
- Json
- enviar SMS
- srt
- verbose_json
- vtt
imageQuality
A qualidade da imagem que será gerada.
Descrição: A qualidade da imagem que será gerada.
Tipo: cadeia de caracteres
Padrão: padrão
Nome Enum: Quality
Valores de enumeração:
| Valor | Descrição |
|---|---|
| padrão | Qualidade padrão cria imagens com qualidade padrão. |
| hd | A qualidade HD cria imagens com detalhes mais finos e maior consistência em toda a imagem. |
imagesResponseFormat
O formato no qual as imagens geradas são retornadas.
Descrição: O formato no qual as imagens geradas são retornadas.
Tipo: cadeia de caracteres
Padrão: url
Nome do enum: ImagesResponseFormat
Valores de enumeração:
| Valor | Descrição |
|---|---|
| url | A URL que oferece acesso temporário para baixar as imagens geradas. |
| b64_json | As imagens geradas são retornadas como strings codificadas em base64. |
imageSize
O tamanho das imagens geradas.
Descrição: O tamanho das imagens geradas.
Tipo: cadeia de caracteres
Padrão: 1024x1024
Nome Enum: Tamanho
Valores de enumeração:
| Valor | Descrição |
|---|---|
| 1792x1024 | O tamanho desejado da imagem gerada é 1792x1024 pixels. |
| 1024x1792 | O tamanho desejado da imagem gerada é 1024x1792 pixels. |
| 1024x1024 | O tamanho desejado da imagem gerada é 1024x1024 pixels. |
imageStyle
O estilo das imagens geradas.
Descrição: O estilo das imagens geradas.
Tipo: cadeia de caracteres
Padrão: vívido
Nome Enum: Style
Valores de enumeração:
| Valor | Descrição |
|---|---|
| Vívido | Vivid cria imagens hiper-realistas e dramáticas. |
| natural | Natural cria imagens mais naturais e menos hiper-realistas. |
generateImagesResponse
| Nome | Tipo | Descrição | Obrigatório | Default |
|---|---|---|---|---|
| criado | inteiro | O carimbo de data do unix quando a operação foi criada. | Yes | |
| dados | matriz | Os dados de resultado da operação, se bem-sucedidos | Yes |
Próximas Etapas
Saiba mais sobre modelos e ajuste fino com a API REST. Saiba mais sobre os modelos underlying que alimentam Azure OpenAI.