Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Este artigo documenta as operações REST API de geração de imagens e inferência do plano de dados de áudio (voz) para Azure OpenAI na 2024-10-21 versão GA. Para conclusãos de chat, embeddings, completions e todas as outras operações, consulte a referência oficial da API REST do Azure OpenAI.
Especificações da API
A gestão e interação com modelos e recursos OpenAI do Azure está dividida em três superfícies principais de API:
- Plano de controlo
- Plano de dados - autoria
- Plano de dados - inferência
Cada superfície/especificação API encapsula um conjunto diferente de capacidades do Azure OpenAI. Cada API tem o seu próprio conjunto único de pré-visualização e versões de APIs estáveis/geralmente disponíveis (GA). Atualmente, os lançamentos de pré-visualização tendem a seguir uma cadência mensal.
Important
Agora existe uma nova API de inferência de pré-visualização. Saiba mais no nosso guia do ciclo de vida da API.
| API | Última versão de pré-visualização | Última versão da GA | Specifications | Description |
|---|---|---|---|---|
| Plano de controlo | 2025-07-01-preview |
2025-06-01 |
Arquivos de especificações | A API do plano de controlo é usada para operações como criação de recursos, implementação de modelos e outras tarefas de gestão de recursos de nível superior. O plano de controlo também regula o que é possível fazer com capacidades como Azure Resource Manager, Bicep, Terraform e CLI do Azure. |
| Plano de dados | v1 preview |
v1 |
Arquivos de especificações | A API do plano de dados controla as operações de inferência e autoria. |
Authentication
O Azure OpenAI fornece dois métodos para autenticação. Pode usar API Keys ou Microsoft Entra ID.
Autenticação de Chave API: Para este tipo de autenticação, todos os pedidos de API devem incluir a Chave API no
api-keycabeçalho HTTP. O Quickstart fornece orientações sobre como fazer chamadas com este tipo de autenticação.Microsoft Entra ID: Pode autenticar uma chamada API usando um token Microsoft Entra. Os tokens de autenticação são incluídos num pedido como Authorizationcabeçalho. O token fornecido deve ser precedido porBearer, por exemploBearer YOUR_AUTH_TOKEN. Pode ler o nosso guia prático sobre autenticação com Microsoft Entra ID.
Versionamento da API REST
As APIs dos serviços são versionadas usando o api-version parâmetro de consulta. Todas as versões seguem a estrutura de datas YYYY-MM-DD. Por exemplo:
POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01
Inferência do plano de dados
O restante deste artigo aborda as operações de imagem e áudio na versão GA da especificação de inferência do plano de dados do Azure OpenAI, 2024-10-21.
Para as operações de imagem de pré-visualização e áudio, consulte a referência da API REST de imagem de pré-visualização e áudio.
Transcrições - Criar
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21
Transcreve o áudio para a língua de entrada.
Parâmetros de URI
| Name | Em | Obrigatório | Tipo | Description |
|---|---|---|---|---|
| ponto final | caminho | Yes | cadeia (de caracteres) url |
Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: https://aoairesource.openai.azure.com). Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{seu-nome-de-recurso}.openai.azure.com |
| ID de implementação | caminho | Yes | cadeia (de caracteres) | ID de implementação do modelo de voz para texto. Para informações sobre modelos suportados, veja [/azure/ai-foundry/openai/concepts/models#audio-models]. |
| Versão da API | consulta | Yes | cadeia (de caracteres) | Versão da API |
Cabeçalho da solicitação
| Name | Obrigatório | Tipo | Description |
|---|---|---|---|
| chave de API | Verdade | cadeia (de caracteres) | Forneça aqui a chave API do Azure OpenAI |
Órgão do Pedido
Tipo de conteúdo: multipart/form-data
| Name | Tipo | Description | Obrigatório | Predefinição |
|---|---|---|---|---|
| ficheiro | cadeia (de caracteres) | O objeto do ficheiro áudio para transcrever. | Yes | |
| avisar | cadeia (de caracteres) | Um texto opcional para guiar o estilo do modelo ou continuar um segmento áudio anterior. O prompt deve corresponder à linguagem do áudio. | No | |
| formato_de_resposta | audioResponseFormat | Define o formato da saída. | No | |
| Temperatura | number | A temperatura de amostragem, entre 0 e 1. Valores mais altos como 0,8 tornam a saída mais aleatória, enquanto valores mais baixos como 0,2 tornam-na mais focada e determinística. Se definido para 0, o modelo usará a probabilidade logarítmica para aumentar automaticamente a temperatura até que certos limiares sejam atingidos. | No | 0 |
| linguagem | cadeia (de caracteres) | A linguagem do áudio de entrada. Fornecer a linguagem de entrada no formato ISO-639-1 irá melhorar a precisão e a latência. | No |
Respostas
Código de Estado: 200
Descrição: OK
| Tipo de conteúdo | Type | Description |
|---|---|---|
| Application/JSON | audioResposta ou áudioResposta Verbosa | |
| texto/sem formatação | cadeia (de caracteres) | Texto transcrito no formato de saída (quando response_format era de texto, vtt ou srt). |
Exemplos
Exemplo
Obtém texto transcrito e metadados associados a partir dos dados de áudio falado fornecidos.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21
Respostas: Código de Estado: 200
{
"body": {
"text": "A structured object when requesting json or verbose_json"
}
}
Exemplo
Obtém texto transcrito e metadados associados a partir dos dados de áudio falado fornecidos.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21
"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"
Respostas: Código de Estado: 200
{
"type": "string",
"example": "plain text when requesting text, srt, or vtt"
}
Traduções - Create
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21
Transcreve e traduz áudio de entrada para texto em inglês.
Parâmetros de URI
| Name | Em | Obrigatório | Tipo | Description |
|---|---|---|---|---|
| ponto final | caminho | Yes | cadeia (de caracteres) url |
Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: https://aoairesource.openai.azure.com). Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{seu-nome-de-recurso}.openai.azure.com |
| ID de implementação | caminho | Yes | cadeia (de caracteres) | ID de implementação do modelo whisper que foi implementado. Para informações sobre modelos suportados, veja [/azure/ai-foundry/openai/concepts/models#audio-models]. |
| Versão da API | consulta | Yes | cadeia (de caracteres) | Versão da API |
Cabeçalho da solicitação
| Name | Obrigatório | Tipo | Description |
|---|---|---|---|
| chave de API | Verdade | cadeia (de caracteres) | Forneça aqui a chave API do Azure OpenAI |
Órgão do Pedido
Tipo de conteúdo: multipart/form-data
| Name | Tipo | Description | Obrigatório | Predefinição |
|---|---|---|---|---|
| ficheiro | cadeia (de caracteres) | O ficheiro de áudio para traduzir. | Yes | |
| avisar | cadeia (de caracteres) | Um texto opcional para guiar o estilo do modelo ou continuar um segmento áudio anterior. O enunciado deve estar em inglês. | No | |
| formato_de_resposta | audioResponseFormat | Define o formato da saída. | No | |
| Temperatura | number | A temperatura de amostragem, entre 0 e 1. Valores mais altos como 0,8 tornam a saída mais aleatória, enquanto valores mais baixos como 0,2 tornam-na mais focada e determinística. Se definido para 0, o modelo usará a probabilidade logarítmica para aumentar automaticamente a temperatura até que certos limiares sejam atingidos. | No | 0 |
Respostas
Código de Estado: 200
Descrição: OK
| Tipo de conteúdo | Type | Description |
|---|---|---|
| Application/JSON | audioResposta ou áudioResposta Verbosa | |
| texto/sem formatação | cadeia (de caracteres) | Texto transcrito no formato de saída (quando response_format era de texto, vtt ou srt). |
Exemplos
Exemplo
Obtém texto transcrito em inglês e metadados associados a partir dos dados de áudio falado fornecidos.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21
"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"
Respostas: Código de Estado: 200
{
"body": {
"text": "A structured object when requesting json or verbose_json"
}
}
Exemplo
Obtém texto transcrito em inglês e metadados associados a partir dos dados de áudio falado fornecidos.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21
"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"
Respostas: Código de Estado: 200
{
"type": "string",
"example": "plain text when requesting text, srt, or vtt"
}
Geração de imagens
POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21
Gera um lote de imagens a partir de uma legenda de texto numa dada implementação do modelo dall-e
Parâmetros de URI
| Name | Em | Obrigatório | Tipo | Description |
|---|---|---|---|---|
| ponto final | caminho | Yes | cadeia (de caracteres) url |
Suportado Azure endpoints OpenAI (protocolo e nome do host, por exemplo: https://aoairesource.openai.azure.com). Substitua "aoairesource" pelo nome do seu recurso Azure OpenAI). https://{seu-nome-de-recurso}.openai.azure.com |
| ID de implementação | caminho | Yes | cadeia (de caracteres) | ID de implementação do modelo dall-e que foi implementado. |
| Versão da API | consulta | Yes | cadeia (de caracteres) | Versão da API |
Cabeçalho da solicitação
| Name | Obrigatório | Tipo | Description |
|---|---|---|---|
| chave de API | Verdade | cadeia (de caracteres) | Forneça aqui a chave API do Azure OpenAI |
Órgão do Pedido
Tipo de conteúdo: application/json
| Name | Tipo | Description | Obrigatório | Predefinição |
|---|---|---|---|---|
| avisar | cadeia (de caracteres) | Uma descrição em texto da(s) imagem(ões) desejada(s). O comprimento máximo é de 4.000 caracteres. | Yes | |
| n | número inteiro | O número de imagens a gerar. | No | 1 |
| size | imageSize | O tamanho das imagens geradas. | No | 1024 x 1024 |
| formato_de_resposta | imagesResponseFormat | O formato em que as imagens geradas são devolvidas. | No | url |
| utilizador | cadeia (de caracteres) | Um identificador único que representa o seu utilizador final, que pode ajudar a monitorizar e detetar abusos. | No | |
| qualidade | qualidade de imagem | A qualidade da imagem que será gerada. | No | norma |
| Estilo | imageStyle | O estilo das imagens geradas. | No | vívido |
Respostas
Código de Estado: 200
Descrição: Ok
| Tipo de conteúdo | Type | Description |
|---|---|---|
| Application/JSON | generateImagesResponse |
Código de Estado: padrão
Descrição: Ocorreu um erro.
| Tipo de conteúdo | Type | Description |
|---|---|---|
| Application/JSON | dalleErrorResponse |
Exemplos
Exemplo
Cria imagens com um prompt.
POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21
{
"prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
"n": 1,
"style": "natural",
"quality": "standard"
}
Respostas: Código de Estado: 200
{
"body": {
"created": 1698342300,
"data": [
{
"revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
"prompt_filter_results": {
"sexual": {
"severity": "safe",
"filtered": false
},
"violence": {
"severity": "safe",
"filtered": false
},
"hate": {
"severity": "safe",
"filtered": false
},
"self_harm": {
"severity": "safe",
"filtered": false
},
"profanity": {
"detected": false,
"filtered": false
}
},
"url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
"content_filter_results": {
"sexual": {
"severity": "safe",
"filtered": false
},
"violence": {
"severity": "safe",
"filtered": false
},
"hate": {
"severity": "safe",
"filtered": false
},
"self_harm": {
"severity": "safe",
"filtered": false
}
}
}
]
}
}
Components
Para as definições de esquema usadas por chat, completions, embeddings e outras operações de texto, consulte a referência à API REST do Azure OpenAI. Os seguintes esquemas suportam as operações de imagem e áudio nesta página.
innerErrorCode
Códigos de erro para o objeto de erro interno.
Descrição: Códigos de erro para o objeto de erro interno.
Tipo: string
Predefinido:
Nome Enum: InnerErrorCode
Valores de Enum:
| valor | Description |
|---|---|
| Violação da Política de IA Responsável | O prompt violou uma de mais regras de filtro de conteúdo. |
dalleErrorResponse
| Name | Tipo | Description | Obrigatório | Predefinição |
|---|---|---|---|---|
| erro | dalleError | No |
dalleError
| Name | Tipo | Description | Obrigatório | Predefinição |
|---|---|---|---|---|
| param | cadeia (de caracteres) | No | ||
| tipo | cadeia (de caracteres) | No | ||
| inner_error | dalleInnerError | Erro interno com detalhes adicionais. | No |
dalleInnerError
Erro interno com detalhes adicionais.
| Name | Tipo | Description | Obrigatório | Predefinição |
|---|---|---|---|---|
| código | innerErrorCode | Códigos de erro para o objeto de erro interno. | No | |
| content_filter_results | dalleFilterResults | Informação sobre a categoria de filtragem de conteúdos (ódio, sexual, violência, self_harm), se foi detetada, bem como o nível de gravidade (escala very_low, baixa, média, alta que determina a intensidade e o nível de risco do conteúdo nocivo) e se foi filtrada ou não. Informação sobre conteúdos de jailbreak e palavrões, se foram detetados e se foram filtrados ou não. E informações sobre a lista de clientes bloqueados, se foi filtrada e o seu identificação. | No | |
| Proposta de Melhorias: - Certificar-se de que as frases e termos são traduzidos corretamente para refletir o mesmo significado do texto de origem. - Adaptar quaisquer termos em inglês que possam ser traduzidos naturalmente para português, preservando o seu significado. - Corrigir quaisquer questões gramaticais para aumentar a fluência e a legibilidade em português. - Usar a estrutura de frases em português natural para que a tradução soe nativa. - Verificar o uso apropriado de pontuação e registro para o português. | cadeia (de caracteres) | O prompt que foi usado para gerar a imagem, caso tenha havido alguma revisão ao prompt. | No |
resultadoDeSeveridadeDoFiltroDeConteúdo
| Name | Tipo | Description | Obrigatório | Predefinição |
|---|---|---|---|---|
| filtered | boolean | Yes | ||
| severity | cadeia (de caracteres) | No |
resultado de deteção de filtro de conteúdo
| Name | Tipo | Description | Obrigatório | Predefinição |
|---|---|---|---|---|
| filtered | boolean | Yes | ||
| detected | boolean | No |
dalleFilterResults
Informação sobre a categoria de filtragem de conteúdos (ódio, sexual, violência, self_harm), se foi detetada, bem como o nível de gravidade (escala very_low, baixa, média, alta que determina a intensidade e o nível de risco do conteúdo nocivo) e se foi filtrada ou não. Informação sobre conteúdos de jailbreak e palavrões, se foram detetados e se foram filtrados ou não. E informações sobre a lista de clientes bloqueados, se foi filtrada e o seu identificação.
| Name | Tipo | Description | Obrigatório | Predefinição |
|---|---|---|---|---|
| sexual | resultadoDaGravidadeDoFiltroDeConteúdo | No | ||
| violence | resultadoDaGravidadeDoFiltroDeConteúdo | No | ||
| hate | resultadoDaGravidadeDoFiltroDeConteúdo | No | ||
| self_harm | resultadoDaGravidadeDoFiltroDeConteúdo | No | ||
| profanity | resultadoDetetadoDoFiltroDeConteúdo | No | ||
| jailbreak | resultadoDetetadoDoFiltroDeConteúdo | No |
Resposta de Áudio
Resposta de tradução ou transcrição quando response_format era json
| Name | Tipo | Description | Obrigatório | Predefinição |
|---|---|---|---|---|
| enviar SMS | cadeia (de caracteres) | Texto traduzido ou transcrito. | Yes |
audioVerboseResponse
Resposta de tradução ou transcrição quando response_format foi verbose_json
| Name | Tipo | Description | Obrigatório | Predefinição |
|---|---|---|---|---|
| enviar SMS | cadeia (de caracteres) | Texto traduzido ou transcrito. | Yes | |
| tarefa | cadeia (de caracteres) | Tipo de tarefa áudio. | No | |
| linguagem | cadeia (de caracteres) | Language. | No | |
| duration | number | Duração. | No | |
| segments | matriz | No |
audioResponseFormat
Define o formato da saída.
Descrição: Define o formato da saída.
Tipo: string
Predefinido:
Valores de Enum:
- json
- enviar SMS
- SRT
- json verboso
- VTT
qualidade de imagem
A qualidade da imagem que será gerada.
Descrição: A qualidade da imagem que será gerada.
Tipo: string
Padrão: norma
Nome Enum: Quality
Valores de Enum:
| valor | Description |
|---|---|
| norma | A qualidade padrão cria imagens com qualidade padrão. |
| alta definição | A qualidade HD cria imagens com detalhes mais finos e maior consistência ao longo da imagem. |
imagesResponseFormat
O formato em que as imagens geradas são devolvidas.
Descrição: O formato em que as imagens geradas são devolvidas.
Tipo: string
Padrão: url
Nome Enum: ImagesResponseFormat
Valores de Enum:
| valor | Description |
|---|---|
| url | O URL que fornece acesso temporário para descarregar as imagens geradas. |
| b64_json | As imagens geradas são devolvidas como strings codificadas em base64. |
imageSize
O tamanho das imagens geradas.
Descrição: O tamanho das imagens geradas.
Tipo: string
Padrão: 1024x1024
Nome Enum: Tamanho
Valores de Enum:
| valor | Description |
|---|---|
| 1792x1024 | O tamanho desejado da imagem gerada é 1792x1024 píxeis. |
| 1024x1792 | O tamanho desejado da imagem gerada é 1024x1792 píxeis. |
| 1024 x 1024 | O tamanho desejado da imagem gerada é 1024x1024 píxeis. |
imageStyle
O estilo das imagens geradas.
Descrição: O estilo das imagens geradas.
Tipo: string
Padrão: vívido
Nome Enum: Style
Valores de Enum:
| valor | Description |
|---|---|
| vívido | Vivid cria imagens hiper-realistas e dramáticas. |
| naturais | Natural cria imagens mais naturais e menos hiper-realistas. |
generateImagesResponse
| Name | Tipo | Description | Obrigatório | Predefinição |
|---|---|---|---|---|
| criado | número inteiro | O carimbo temporal do unix quando a operação foi criada. | Yes | |
| dados | matriz | Os dados de resultado da operação, se bem-sucedidos | Yes |
Passos seguintes
Aprenda sobre modelos e ajuste fino com a API REST. Saiba mais sobre os modelos subjacentes que alimentam Azure OpenAI.