你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure OpenAI 图像和音频 REST API 参考(2025-04-01-preview)

本文介绍发布中2025-04-01-previewAzure OpenAI 的图像生成和音频(语音)数据平面推理 REST API 操作。 有关聊天完成、嵌入、助手、响应、矢量存储和其他所有操作,请参阅官方Azure OpenAI REST API 参考

API 规范

管理和交互 Azure OpenAI 模型及资源分为三个主要的 API 表面:

  • 控制平面
  • 数据平面 - 创作
  • 数据平面 - 推理

每个API表面/规范都封装了一套不同的Azure OpenAI能力。 每个 API 都有其独特的预览版和稳定/普遍可用(GA)API 版本。 预览版目前通常按月发布。

Important

现在有一个新的预览推理API。 在我们的 API生命周期指南中了解更多。

API 最新预览发布 最新GA发布 Specifications Description
控制平面 2025-07-01-preview 2025-06-01 规格文件 控制平面 API 用于 创建资源模型部署及其他高级资源管理任务等操作。 控制平面还管理了像 Azure 资源管理器、Bicep、Terraform 和 Azure CLI 等功能所能做的事情。
数据平面 v1 preview v1 规格文件 数据平面 API 控制推理和创作操作。

身份验证

Azure OpenAI 提供两种认证方法。 你可以使用API密钥或Microsoft Entra ID。

  • API 密钥认证:对于这种类型的认证,所有 API 请求必须在 api-key HTTP 头部包含 API 密钥。 快速入门指南提供了如何使用此类认证拨打电话的指导。

  • Microsoft Entra ID 认证:你可以用Microsoft Entra令牌来认证API调用。 认证令牌作为请求的头部包含在请求 Authorization 中。 所提供的标记必须前加 Bearer,例如 Bearer YOUR_AUTH_TOKEN。 你可以阅读我们关于认证的Microsoft Entra ID操作指南。

REST API 版本管理

服务API通过 api-version 查询参数进行版本控制。 所有版本均遵循YYYY-MM-DD 日期结构。 例如:

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01

数据平面推断

本文的其余部分介绍了 Azure OpenAI 数据平面推理规范预览版中的2025-04-01-preview图像和音频操作。

有关 GA 映像和音频操作,请参阅 GA 映像和音频 REST API 参考

转录 - 创建

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2025-04-01-preview

将音频转录成输入语言。

URI 参数

名称 In 必需 类型 Description
终结点 路径 是的 字符串 URL 支持Azure OpenAI 端点(协议和主机名,例如:https://aoairesource.openai.azure.com。将“aoairesource”替换为你的Azure OpenAI资源名称)。 https://{your-resource-name}.openai.azure.com
部署标识符 (deployment-id) 路径 是的 字符串
api-version 查询 是的 字符串

请求标头

使用基于令牌的认证或API密钥。 建议使用基于令牌的认证,且更安全。

名称 必需 类型 Description
Authorization 字符串 例:Authorization: Bearer {Azure_OpenAI_Auth_Token}

使用 Azure CLI 生成认证令牌:az account get-access-token --resource https://cognitiveservices.azure.com

类型:oauth2
授权网址: https://login.microsoftonline.com/common/oauth2/v2.0/authorize
范围: https://ai.azure.com/.default
API密钥 字符串 在此处提供 Azure OpenAI API 密钥

请求主体

Content-Type:multipart/form-data

名称 类型 Description 必需 Default
模型 字符串 型号的识别码。 选项包括 gpt-4o-transcribegpt-4o-mini-transcribegpt-4o-mini-transcribe-2025-12-15whisper-1gpt-4o-transcribe-diarize和 。 是的
文件 字符串 音频文件对象要转录。 是的
语言 字符串 输入音频的语言。 以 ISO-639-1 格式提供输入语言可以提高准确性和延迟。
提示 字符串 可选文本,用于指导模型风格或延续之前的音频片段。 提示应与音频语言相匹配。
响应格式 audioResponseFormat 定义输出格式。
温度 number 采样温度在0到1之间。 像0.8这样的高值会让输出更随机,而像0.2这样的低值则会让输出更聚焦和确定性强。 如果设置为0,模型会使用对数概率自动升温,直到达到某些阈值。 0
timestamp_granularities[] 数组 本次转录的时间戳细粒度。 response_format 必须设置为 verbose_json 使用时间戳的粒度。 支持 word以下选项中的一个或两个:,或 segment。 注意:段时间戳不会有额外延迟,但生成字时间戳会产生额外的延迟。 ['segment']

Responses

状态代码: 200

说明:确定

内容类型 类型 说明
application/json 对象
text/plain 字符串 输出格式的转录文本(当response_format为 textvttsrt之一时)。

示例

示例

从提供的语音音频数据中获取转录文本及相关元数据。

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2025-04-01-preview

回复:状态代码:200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

示例

从提供的语音音频数据中获取转录文本及相关元数据。

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2025-04-01-preview

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

回复:状态代码:200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

翻译 - 创作

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2025-04-01-preview

将输入音频转录并翻译成英文文本。

URI 参数

名称 In 必需 类型 Description
终结点 路径 是的 字符串 URL 支持Azure OpenAI 端点(协议和主机名,例如:https://aoairesource.openai.azure.com。将“aoairesource”替换为你的Azure OpenAI资源名称)。 https://{your-resource-name}.openai.azure.com
部署标识符 (deployment-id) 路径 是的 字符串
api-version 查询 是的 字符串

请求标头

使用基于令牌的认证或API密钥。 建议使用基于令牌的认证,且更安全。

名称 必需 类型 Description
Authorization 字符串 例:Authorization: Bearer {Azure_OpenAI_Auth_Token}

使用 Azure CLI 生成认证令牌:az account get-access-token --resource https://cognitiveservices.azure.com

类型:oauth2
授权网址: https://login.microsoftonline.com/common/oauth2/v2.0/authorize
范围: https://ai.azure.com/.default
API密钥 字符串 在此处提供 Azure OpenAI API 密钥

请求主体

Content-Type:multipart/form-data

名称 类型 Description 必需 Default
文件 字符串 音频文件需要翻译。 是的
提示 字符串 可选文本,用于指导模型风格或延续之前的音频片段。 提示应为英文。
响应格式 audioResponseFormat 定义输出格式。
温度 number 采样温度在0到1之间。 像0.8这样的高值会让输出更随机,而像0.2这样的低值则会让输出更聚焦和确定性强。 如果设置为0,模型会使用对数概率自动升温,直到达到某些阈值。 0

Responses

状态代码: 200

说明:确定

内容类型 类型 说明
application/json 对象
text/plain 字符串 以输出格式转录文本(当response_format为文本、vtt或srt时)。

示例

示例

从提供的语音音频数据中获取英文转录文本及相关元数据。

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2025-04-01-preview

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

回复:状态代码:200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

示例

从提供的语音音频数据中获取英文转录文本及相关元数据。

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2025-04-01-preview

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

回复:状态代码:200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

语音 - 创作

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/speech?api-version=2025-04-01-preview

从输入文本生成音频。

URI 参数

名称 In 必需 类型 Description
终结点 路径 是的 字符串 URL 支持Azure OpenAI 端点(协议和主机名,例如:https://aoairesource.openai.azure.com。将“aoairesource”替换为你的Azure OpenAI资源名称)。 https://{your-resource-name}.openai.azure.com
部署标识符 (deployment-id) 路径 是的 字符串
api-version 查询 是的 字符串

请求标头

使用基于令牌的认证或API密钥。 建议使用基于令牌的认证,且更安全。

名称 必需 类型 Description
Authorization 字符串 例:Authorization: Bearer {Azure_OpenAI_Auth_Token}

使用 Azure CLI 生成认证令牌:az account get-access-token --resource https://cognitiveservices.azure.com

类型:oauth2
授权网址: https://login.microsoftonline.com/common/oauth2/v2.0/authorize
范围: https://ai.azure.com/.default
API密钥 字符串 在此处提供 Azure OpenAI API 密钥

请求主体

Content-Type:multipart/form-data

名称 类型 Description 必需 Default
输入 字符串 合成音频的文本。 最大长度为4,096字符。 是的
响应格式 枚举 合成音频的格式。
可能的值:mp3opusaacflacwavpcm
speed number 合成音频的速度。 从中0.25选择一个值。4.0 1.0 是默认。 1.0
声音 枚举 用于语音合成的声音。
可能的值:alloyechofableonyxnovashimmer
是的

Responses

状态代码: 200

说明:确定

内容类型 类型 说明
application/octet-stream 字符串

示例

示例

从提供的文本中合成音频。

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/speech?api-version=2025-04-01-preview

{
 "input": "Hi! What are you going to make?",
 "voice": "fable",
 "response_format": "mp3"
}

回复:状态代码:200

{
  "body": "101010101"
}

图像生成 - 创建

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2025-04-01-preview

根据给定图像生成模型部署,从文本说明生成一批图像

URI 参数

名称 In 必需 类型 Description
终结点 路径 是的 字符串 URL 支持Azure OpenAI 端点(协议和主机名,例如:https://aoairesource.openai.azure.com。将“aoairesource”替换为你的Azure OpenAI资源名称)。 https://{your-resource-name}.openai.azure.com
部署标识符 (deployment-id) 路径 是的 字符串
api-version 查询 是的 字符串

请求标头

使用基于令牌的认证或API密钥。 建议使用基于令牌的认证,且更安全。

名称 必需 类型 Description
Authorization 字符串 例:Authorization: Bearer {Azure_OpenAI_Auth_Token}

使用 Azure CLI 生成认证令牌:az account get-access-token --resource https://cognitiveservices.azure.com

类型:oauth2
授权网址: https://login.microsoftonline.com/common/oauth2/v2.0/authorize
范围: https://ai.azure.com/.default
API密钥 字符串 在此处提供 Azure OpenAI API 密钥

请求主体

“内容类型”: application/json

名称 类型 Description 必需 Default
后台的 imageBackground 允许设置生成图像背景的透明度。 该参数仅支持GPT-image-1系列模型。 汽车
n 整数 需要生成的图片数量。 对于 dall-e-3,仅支持 n=1。 1
输出压缩 整数 生成图像的压缩级别(0-100%)。 该参数仅支持带有jpeg输出格式的gpt-image-1系列模型。 100
输出格式 imagesOutputFormat 生成图像返回的文件格式。 仅支持 gpt-image-1 系列型号。 png
提示 字符串 对所需图片的文字描述。 GPT-image-1 系列的最大长度为 32000 字符,dall-e-3 的最大长度为 4000 字符 是的
部分图像 整数 需要生成的部分图像数量。 该参数用于返回部分图像的流式响应。 值必须在0到3之间。 设置为0时,响应将是一次流媒体事件中发送的单张图片。 请注意,如果完整图像生成速度更快,最终图像可能会在部分图像数量生成之前发送。 0
数据流 布尔 在流媒体模式下编辑图片。 false
quality imageQuality 生成图像的质量。 汽车
响应格式 imagesResponseFormat 生成图像返回的格式。 该参数不支持 gpt-image-1系列模型,因为它们总是返回base64编码图像。
可能的值: urlb64_json
url
大小 imageSize 生成图像的大小。 汽车
样式 imageStyle 生成图像的风格。 仅支持DALL-E-3。 vivid
用户 字符串 一个代表终端用户的唯一标识符,有助于监控和检测滥用行为。

Responses

状态代码: 200

说明:好的

内容类型 类型 说明
application/json generateImagesResponse

状态代码: 默认

描述:发生了错误。

内容类型 类型 说明
application/json dalleErrorResponse

示例

示例

根据提示生成图片。

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2025-04-01-preview

{
 "prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
 "n": 1,
 "style": "natural",
 "quality": "standard"
}

回复:状态代码:200

{
  "body": {
    "created": 1698342300,
    "data": [
      {
        "revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
        "prompt_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          },
          "profanity": {
            "detected": false,
            "filtered": false
          },
          "custom_blocklists": {
            "filtered": false,
            "details": []
          }
        },
        "url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
        "content_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          }
        }
      }
    ]
  }
}

图像生成 - 编辑

POST https://{endpoint}/openai/deployments/{deployment-id}/images/edits?api-version=2025-04-01-preview

在给定的GPT-image-1模型部署中,编辑文本说明中的图片

URI 参数

名称 In 必需 类型 Description
终结点 路径 是的 字符串 URL 支持Azure OpenAI 端点(协议和主机名,例如:https://aoairesource.openai.azure.com。将“aoairesource”替换为你的Azure OpenAI资源名称)。 https://{your-resource-name}.openai.azure.com
部署标识符 (deployment-id) 路径 是的 字符串
api-version 查询 是的 字符串

请求标头

使用基于令牌的认证或API密钥。 建议使用基于令牌的认证,且更安全。

名称 必需 类型 Description
Authorization 字符串 例:Authorization: Bearer {Azure_OpenAI_Auth_Token}

使用 Azure CLI 生成认证令牌:az account get-access-token --resource https://cognitiveservices.azure.com

类型:oauth2
授权网址: https://login.microsoftonline.com/common/oauth2/v2.0/authorize
范围: https://ai.azure.com/.default
API密钥 字符串 在此处提供 Azure OpenAI API 密钥

请求主体

Content-Type:multipart/form-data

名称 类型 Description 必需 Default
图像 字符串或数组 需要编辑的图片。 必须是支持的图片文件或图像数组。 每张图片应该是png或jpg文件,大小于50MB。 是的
输入保真度 字符串 控制模型为匹配输入图像的风格和特征,尤其是面部特征所投入的努力。 该参数仅支持GPT-image-1系列模型。 支持和highlow low
过滤 字符串 另一张图像的完全透明区域(例如alpha为零)指示图像应编辑的位置。 如果提供多张图像,遮罩将应用到第一张图像上。 必须是有效的PNG文件,大小小于4MB,且尺寸与图片相同。
n 整数 需要生成的图片数量。 必须在1到10之间。 1
提示 字符串 对所需图片的文字描述。 最大长度为32000字符。 是的
quality imageQuality 生成图像的质量。 汽车
部分图像 需要生成的部分图像数量。 该参数用于返回部分图像的流式响应。 值必须在0到3之间。 设置为0时,响应将是一次流媒体事件中发送的单张图片。 请注意,如果完整图像生成速度更快,最终图像可能会在部分图像数量生成之前发送。
数据流 布尔 在流媒体模式下编辑图片。 false
响应格式 imagesResponseFormat 生成图像返回的格式。 url
大小 imageSize 生成图像的大小。 汽车
用户 字符串 一个代表终端用户的唯一标识符,有助于监控和检测滥用行为。

Responses

状态代码: 200

说明:好的

内容类型 类型 说明
application/json generateImagesResponse

状态代码: 默认

描述:发生了错误。

内容类型 类型 说明
application/json dalleErrorResponse

组件

有关聊天、完成、嵌入、响应和其他文本操作使用的架构定义,请参阅 Azure OpenAI REST API 参考。 以下架构支持此页上的图像和音频操作。

innerErrorCode

内部错误对象的错误代码。

财产 价值
说明 内部错误对象的错误代码。
类型 字符串
价值观 ResponsibleAIPolicyViolation

dalleErrorResponse

名称 类型 Description 必需 Default
错误 dalleError

dalleError

名称 类型 Description 必需 Default
内部错误 dalleInnerError 内部错误,附加细节。
param 字符串
类型 字符串

dalleInnerError

内部错误,附加细节。

名称 类型 Description 必需 Default
代码 innerErrorCode 内部错误对象的错误代码。
content_filter_results dalleFilterResults 关于内容过滤类别(仇恨、性、暴力、self_harm)、是否检测到,以及严重程度(very_low、低、中、高,决定有害内容的强度和风险等级),以及是否被过滤。 关于越狱内容和脏话的信息,是否被检测到,以及是否经过过滤。 还有客户黑名单的信息(如果被过滤过的话)以及它的ID。
修订后的提示 字符串 如果提示词有任何修改,那就是用来生成图片的提示词。

contentFilterSeverityResult

名称 类型 Description 必需 Default
filtered 布尔 是的
severity 字符串

内容过滤检测结果

名称 类型 Description 必需 Default
detected 布尔
filtered 布尔 是的

contentFilterDetailedResults

内容过滤结果会显示被过滤片段的内容过滤ID详细信息。

名称 类型 Description 必需 Default
details 数组
filtered 布尔 是的

dalleFilterResults

关于内容过滤类别(仇恨、性、暴力、self_harm)、是否检测到,以及严重程度(very_low、低、中、高,决定有害内容的强度和风险等级),以及是否被过滤。 关于越狱内容和脏话的信息,是否被检测到,以及是否经过过滤。 还有客户黑名单的信息(如果被过滤过的话)以及它的ID。

名称 类型 Description 必需 Default
custom_blocklists contentFilterDetailedResults 内容过滤结果会显示被过滤片段的内容过滤ID详细信息。
hate 内容过滤严重性结果
jailbreak 内容过滤检测结果
profanity 内容过滤检测结果
self_harm 内容过滤严重性结果
sexual 内容过滤严重性结果
violence 内容过滤严重性结果

audioResponseFormat

定义输出格式。

财产 价值
说明 定义输出格式。
类型 字符串
价值观 json
text
srt
verbose_json
vtt

imageQuality

生成图像的质量。

财产 价值
说明 生成图像的质量。
类型 字符串
默认 汽车
价值观 auto
high
medium
low
hd
standard

imagesResponseFormat

生成图像返回的格式。

财产 价值
说明 生成图像返回的格式。
类型 字符串
默认 url
价值观 url
b64_json

imagesOutputFormat

生成图像返回的文件格式。 仅支持系列机型。

财产 价值
说明 生成图像返回的文件格式。 仅支持 gpt-image-1 系列型号。
类型 字符串
默认 png
价值观 png
jpeg

imageSize

生成图像的大小。

财产 价值
说明 生成图像的大小。
类型 字符串
默认 汽车
价值观 auto
1792x1024
1024x1792
1024x1024
1024x1536
1536x1024

imageStyle

生成图像的风格。 仅支持DALL-E-3。

财产 价值
说明 生成图像的风格。 仅支持DALL-E-3。
类型 字符串
默认 vivid
价值观 vivid
natural

imageBackground

允许设置生成图像背景的透明度。 该参数仅支持GPT-image-1系列模型。

财产 价值
说明 允许设置生成图像背景的透明度。 该参数仅支持GPT-image-1系列模型。
类型 字符串
默认 汽车
价值观 transparent
opaque
auto

generateImagesResponse

名称 类型 Description 必需 Default
已创建 整数 操作创建时的Unix时间戳。 是的
数据 数组 如果操作成功,则为该操作的结果数据 是的
使用情况 imageGenerationsUsage 表示图像生成请求的令牌使用详情。 仅适用于GPT-image-1系列型号。

imageGenerationsUsage

表示图像生成请求的令牌使用详情。 仅适用于GPT-image-1系列型号。

名称 类型 Description 必需 Default
input_tokens 整数 输入标记的数量。
input_tokens_details 对象 输入标记的详细分解。
图像标记 整数 图像标记的数量。
text_tokens 整数 文字标记的数量。
output_tokens 整数 输出标记的数量。
total_tokens 整数 总使用的代币数量。

后续步骤

了解 使用 REST API 进行模型和微调。 详细了解支持 OpenAI 的Azure模型