你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure OpenAI 图像和音频 REST API 参考（2025-04-01-preview）

本文介绍发布中2025-04-01-previewAzure OpenAI 的图像生成和音频（语音）数据平面推理 REST API 操作。有关聊天完成、嵌入、助手、响应、矢量存储和其他所有操作，请参阅官方Azure OpenAI REST API 参考。

API 规范

管理和交互 Azure OpenAI 模型及资源分为三个主要的 API 表面：

控制平面
数据平面 - 创作
数据平面 - 推理

每个API表面/规范都封装了一套不同的Azure OpenAI能力。每个 API 都有其独特的预览版和稳定/普遍可用（GA）API 版本。预览版目前通常按月发布。

Important

现在有一个新的预览推理API。在我们的 API生命周期指南中了解更多。

API	最新预览发布	最新GA发布	Specifications	Description
控制平面	`2025-07-01-preview`	`2025-06-01`	规格文件	控制平面 API 用于创建资源、模型部署及其他高级资源管理任务等操作。控制平面还管理了像 Azure 资源管理器、Bicep、Terraform 和 Azure CLI 等功能所能做的事情。
数据平面	`v1 preview`	`v1`	规格文件	数据平面 API 控制推理和创作操作。

身份验证

Azure OpenAI 提供两种认证方法。你可以使用API密钥或Microsoft Entra ID。

API 密钥认证：对于这种类型的认证，所有 API 请求必须在 api-key HTTP 头部包含 API 密钥。快速入门指南提供了如何使用此类认证拨打电话的指导。
Microsoft Entra ID 认证：你可以用Microsoft Entra令牌来认证API调用。认证令牌作为请求的头部包含在请求 Authorization 中。所提供的标记必须前加 Bearer，例如 Bearer YOUR_AUTH_TOKEN。你可以阅读我们关于认证的Microsoft Entra ID操作指南。

REST API 版本管理

服务API通过 api-version 查询参数进行版本控制。所有版本均遵循YYYY-MM-DD 日期结构。例如：

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01

数据平面推断

本文的其余部分介绍了 Azure OpenAI 数据平面推理规范预览版中的2025-04-01-preview图像和音频操作。

有关 GA 映像和音频操作，请参阅 GA 映像和音频 REST API 参考。

转录 - 创建

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2025-04-01-preview

将音频转录成输入语言。

URI 参数

名称	In	必需	类型	Description
终结点	路径	是的	字符串 URL	支持Azure OpenAI 端点（协议和主机名，例如：`https://aoairesource.openai.azure.com`。将“aoairesource”替换为你的Azure OpenAI资源名称）。 https://{your-resource-name}.openai.azure.com
部署标识符 (deployment-id)	路径	是的	字符串
api-version	查询	是的	字符串

请求标头

使用基于令牌的认证或API密钥。建议使用基于令牌的认证，且更安全。

名称	必需	类型	Description
Authorization	是	字符串	例：`Authorization: Bearer {Azure_OpenAI_Auth_Token}` 使用 Azure CLI 生成认证令牌：`az account get-access-token --resource https://cognitiveservices.azure.com` 类型：oauth2 授权网址： `https://login.microsoftonline.com/common/oauth2/v2.0/authorize` 范围： `https://ai.azure.com/.default`
API密钥	是	字符串	在此处提供 Azure OpenAI API 密钥

请求主体

Content-Type：multipart/form-data

名称	类型	Description	必需	Default
模型	字符串	型号的识别码。选项包括 `gpt-4o-transcribe`、 `gpt-4o-mini-transcribe`、 `gpt-4o-mini-transcribe-2025-12-15`、 `whisper-1gpt-4o-transcribe-diarize`和。	是的
文件	字符串	音频文件对象要转录。	是的
语言	字符串	输入音频的语言。以 ISO-639-1 格式提供输入语言可以提高准确性和延迟。	否
提示	字符串	可选文本，用于指导模型风格或延续之前的音频片段。提示应与音频语言相匹配。	否
响应格式	audioResponseFormat	定义输出格式。	否
温度	number	采样温度在0到1之间。像0.8这样的高值会让输出更随机，而像0.2这样的低值则会让输出更聚焦和确定性强。如果设置为0，模型会使用对数概率自动升温，直到达到某些阈值。	否	0
timestamp_granularities[]	数组	本次转录的时间戳细粒度。 `response_format` 必须设置为 `verbose_json` 使用时间戳的粒度。支持 `word`以下选项中的一个或两个：，或 `segment`。注意：段时间戳不会有额外延迟，但生成字时间戳会产生额外的延迟。	否	['segment']

Responses

状态代码： 200

说明：确定

内容类型	类型	说明
application/json	对象
text/plain	字符串	输出格式的转录文本（当response_format为 `text`或 `vttsrt`之一时）。

示例

从提供的语音音频数据中获取转录文本及相关元数据。

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2025-04-01-preview

回复：状态代码：200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

示例

从提供的语音音频数据中获取转录文本及相关元数据。

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2025-04-01-preview

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

回复：状态代码：200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

翻译 - 创作

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2025-04-01-preview

将输入音频转录并翻译成英文文本。

URI 参数

名称	In	必需	类型	Description
终结点	路径	是的	字符串 URL	支持Azure OpenAI 端点（协议和主机名，例如：`https://aoairesource.openai.azure.com`。将“aoairesource”替换为你的Azure OpenAI资源名称）。 https://{your-resource-name}.openai.azure.com
部署标识符 (deployment-id)	路径	是的	字符串
api-version	查询	是的	字符串

请求标头

使用基于令牌的认证或API密钥。建议使用基于令牌的认证，且更安全。

名称	必需	类型	Description
Authorization	是	字符串	例：`Authorization: Bearer {Azure_OpenAI_Auth_Token}` 使用 Azure CLI 生成认证令牌：`az account get-access-token --resource https://cognitiveservices.azure.com` 类型：oauth2 授权网址： `https://login.microsoftonline.com/common/oauth2/v2.0/authorize` 范围： `https://ai.azure.com/.default`
API密钥	是	字符串	在此处提供 Azure OpenAI API 密钥

请求主体

Content-Type：multipart/form-data

名称	类型	Description	必需	Default
文件	字符串	音频文件需要翻译。	是的
提示	字符串	可选文本，用于指导模型风格或延续之前的音频片段。提示应为英文。	否
响应格式	audioResponseFormat	定义输出格式。	否
温度	number	采样温度在0到1之间。像0.8这样的高值会让输出更随机，而像0.2这样的低值则会让输出更聚焦和确定性强。如果设置为0，模型会使用对数概率自动升温，直到达到某些阈值。	否	0

Responses

状态代码： 200

说明：确定

内容类型	类型	说明
application/json	对象
text/plain	字符串	以输出格式转录文本（当response_format为文本、vtt或srt时）。

示例

从提供的语音音频数据中获取英文转录文本及相关元数据。

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2025-04-01-preview

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

回复：状态代码：200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

示例

从提供的语音音频数据中获取英文转录文本及相关元数据。

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2025-04-01-preview

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

回复：状态代码：200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

语音 - 创作

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/speech?api-version=2025-04-01-preview

从输入文本生成音频。

URI 参数

名称	In	必需	类型	Description
终结点	路径	是的	字符串 URL	支持Azure OpenAI 端点（协议和主机名，例如：`https://aoairesource.openai.azure.com`。将“aoairesource”替换为你的Azure OpenAI资源名称）。 https://{your-resource-name}.openai.azure.com
部署标识符 (deployment-id)	路径	是的	字符串
api-version	查询	是的	字符串

请求标头

使用基于令牌的认证或API密钥。建议使用基于令牌的认证，且更安全。

名称	必需	类型	Description
Authorization	是	字符串	例：`Authorization: Bearer {Azure_OpenAI_Auth_Token}` 使用 Azure CLI 生成认证令牌：`az account get-access-token --resource https://cognitiveservices.azure.com` 类型：oauth2 授权网址： `https://login.microsoftonline.com/common/oauth2/v2.0/authorize` 范围： `https://ai.azure.com/.default`
API密钥	是	字符串	在此处提供 Azure OpenAI API 密钥

请求主体

Content-Type：multipart/form-data

名称	类型	Description	必需	Default
输入	字符串	合成音频的文本。最大长度为4,096字符。	是的
响应格式	枚举	合成音频的格式。可能的值：`mp3`， `opus`， `aac`， `flacwavpcm`	否
speed	number	合成音频的速度。从中`0.25`选择一个值。`4.0` `1.0` 是默认。	否	1.0
声音	枚举	用于语音合成的声音。可能的值：`alloy`， `echo`， `fable`， `onyxnovashimmer`	是的

Responses

状态代码： 200

说明：确定

内容类型	类型	说明
application/octet-stream	字符串

示例

从提供的文本中合成音频。

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/speech?api-version=2025-04-01-preview

{
 "input": "Hi! What are you going to make?",
 "voice": "fable",
 "response_format": "mp3"
}

回复：状态代码：200

{
  "body": "101010101"
}

图像生成 - 创建

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2025-04-01-preview

根据给定图像生成模型部署，从文本说明生成一批图像

URI 参数

名称	In	必需	类型	Description
终结点	路径	是的	字符串 URL	支持Azure OpenAI 端点（协议和主机名，例如：`https://aoairesource.openai.azure.com`。将“aoairesource”替换为你的Azure OpenAI资源名称）。 https://{your-resource-name}.openai.azure.com
部署标识符 (deployment-id)	路径	是的	字符串
api-version	查询	是的	字符串

请求标头

使用基于令牌的认证或API密钥。建议使用基于令牌的认证，且更安全。

名称	必需	类型	Description
Authorization	是	字符串	例：`Authorization: Bearer {Azure_OpenAI_Auth_Token}` 使用 Azure CLI 生成认证令牌：`az account get-access-token --resource https://cognitiveservices.azure.com` 类型：oauth2 授权网址： `https://login.microsoftonline.com/common/oauth2/v2.0/authorize` 范围： `https://ai.azure.com/.default`
API密钥	是	字符串	在此处提供 Azure OpenAI API 密钥

请求主体

“内容类型”: application/json

名称	类型	Description	必需	Default
后台的	imageBackground	允许设置生成图像背景的透明度。该参数仅支持GPT-image-1系列模型。	否	汽车
n	整数	需要生成的图片数量。对于 dall-e-3，仅支持 n=1。	否	1
输出压缩	整数	生成图像的压缩级别（0-100%）。该参数仅支持带有jpeg输出格式的gpt-image-1系列模型。	否	100
输出格式	imagesOutputFormat	生成图像返回的文件格式。仅支持 gpt-image-1 系列型号。	否	png
提示	字符串	对所需图片的文字描述。 GPT-image-1 系列的最大长度为 32000 字符，dall-e-3 的最大长度为 4000 字符	是的
部分图像	整数	需要生成的部分图像数量。该参数用于返回部分图像的流式响应。值必须在0到3之间。设置为0时，响应将是一次流媒体事件中发送的单张图片。请注意，如果完整图像生成速度更快，最终图像可能会在部分图像数量生成之前发送。	0
数据流	布尔	在流媒体模式下编辑图片。	否	`false`
quality	imageQuality	生成图像的质量。	否	汽车
响应格式	imagesResponseFormat	生成图像返回的格式。该参数不支持 `gpt-image-1`系列模型，因为它们总是返回base64编码图像。可能的值： `url`， `b64_json`。	否	url
大小	imageSize	生成图像的大小。	否	汽车
样式	imageStyle	生成图像的风格。仅支持DALL-E-3。	否	vivid
用户	字符串	一个代表终端用户的唯一标识符，有助于监控和检测滥用行为。	否

Responses

状态代码： 200

说明：好的

内容类型	类型	说明
application/json	generateImagesResponse

状态代码： 默认

描述：发生了错误。

内容类型	类型	说明
application/json	dalleErrorResponse

示例

根据提示生成图片。

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2025-04-01-preview

{
 "prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
 "n": 1,
 "style": "natural",
 "quality": "standard"
}

回复：状态代码：200

{
  "body": {
    "created": 1698342300,
    "data": [
      {
        "revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
        "prompt_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          },
          "profanity": {
            "detected": false,
            "filtered": false
          },
          "custom_blocklists": {
            "filtered": false,
            "details": []
          }
        },
        "url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
        "content_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          }
        }
      }
    ]
  }
}

图像生成 - 编辑

POST https://{endpoint}/openai/deployments/{deployment-id}/images/edits?api-version=2025-04-01-preview

在给定的GPT-image-1模型部署中，编辑文本说明中的图片

URI 参数

名称	In	必需	类型	Description
终结点	路径	是的	字符串 URL	支持Azure OpenAI 端点（协议和主机名，例如：`https://aoairesource.openai.azure.com`。将“aoairesource”替换为你的Azure OpenAI资源名称）。 https://{your-resource-name}.openai.azure.com
部署标识符 (deployment-id)	路径	是的	字符串
api-version	查询	是的	字符串

请求标头

使用基于令牌的认证或API密钥。建议使用基于令牌的认证，且更安全。

名称	必需	类型	Description
Authorization	是	字符串	例：`Authorization: Bearer {Azure_OpenAI_Auth_Token}` 使用 Azure CLI 生成认证令牌：`az account get-access-token --resource https://cognitiveservices.azure.com` 类型：oauth2 授权网址： `https://login.microsoftonline.com/common/oauth2/v2.0/authorize` 范围： `https://ai.azure.com/.default`
API密钥	是	字符串	在此处提供 Azure OpenAI API 密钥

请求主体

Content-Type：multipart/form-data

名称	类型	Description	必需	Default
图像	字符串或数组	需要编辑的图片。必须是支持的图片文件或图像数组。每张图片应该是png或jpg文件，大小于50MB。	是的
输入保真度	字符串	控制模型为匹配输入图像的风格和特征，尤其是面部特征所投入的努力。该参数仅支持GPT-image-1系列模型。支持和`highlow`。	否	`low`。
过滤	字符串	另一张图像的完全透明区域（例如alpha为零）指示图像应编辑的位置。如果提供多张图像，遮罩将应用到第一张图像上。必须是有效的PNG文件，大小小于4MB，且尺寸与图片相同。	否
n	整数	需要生成的图片数量。必须在1到10之间。	否	1
提示	字符串	对所需图片的文字描述。最大长度为32000字符。	是的
quality	imageQuality	生成图像的质量。	否	汽车
部分图像	需要生成的部分图像数量。该参数用于返回部分图像的流式响应。值必须在0到3之间。设置为0时，响应将是一次流媒体事件中发送的单张图片。请注意，如果完整图像生成速度更快，最终图像可能会在部分图像数量生成之前发送。
数据流	布尔	在流媒体模式下编辑图片。	否	`false`
响应格式	imagesResponseFormat	生成图像返回的格式。	否	url
大小	imageSize	生成图像的大小。	否	汽车
用户	字符串	一个代表终端用户的唯一标识符，有助于监控和检测滥用行为。	否

Responses

状态代码： 200

说明：好的

内容类型	类型	说明
application/json	generateImagesResponse

状态代码： 默认

描述：发生了错误。

内容类型	类型	说明
application/json	dalleErrorResponse

组件

有关聊天、完成、嵌入、响应和其他文本操作使用的架构定义，请参阅 Azure OpenAI REST API 参考。以下架构支持此页上的图像和音频操作。

innerErrorCode

内部错误对象的错误代码。

财产	价值
说明	内部错误对象的错误代码。
类型	字符串
价值观	`ResponsibleAIPolicyViolation`

dalleErrorResponse

名称	类型	Description	必需	Default
错误	dalleError		否

dalleError

名称	类型	Description	必需
内部错误	dalleInnerError	内部错误，附加细节。	否
param	字符串		否
类型	字符串		否

dalleInnerError

内部错误，附加细节。

名称	类型	Description	必需
代码	innerErrorCode	内部错误对象的错误代码。	否
content_filter_results	dalleFilterResults	关于内容过滤类别（仇恨、性、暴力、self_harm）、是否检测到，以及严重程度（very_low、低、中、高，决定有害内容的强度和风险等级），以及是否被过滤。关于越狱内容和脏话的信息，是否被检测到，以及是否经过过滤。还有客户黑名单的信息（如果被过滤过的话）以及它的ID。	否
修订后的提示	字符串	如果提示词有任何修改，那就是用来生成图片的提示词。	否

contentFilterSeverityResult

名称	类型	Description	必需	Default
filtered	布尔		是的
severity	字符串		否

内容过滤检测结果

名称	类型	Description	必需	Default
detected	布尔		否
filtered	布尔		是的

contentFilterDetailedResults

内容过滤结果会显示被过滤片段的内容过滤ID详细信息。

名称	类型	Description	必需	Default
details	数组		否
filtered	布尔		是的

dalleFilterResults

关于内容过滤类别（仇恨、性、暴力、self_harm）、是否检测到，以及严重程度（very_low、低、中、高，决定有害内容的强度和风险等级），以及是否被过滤。关于越狱内容和脏话的信息，是否被检测到，以及是否经过过滤。还有客户黑名单的信息（如果被过滤过的话）以及它的ID。

名称	类型	Description	必需
custom_blocklists	contentFilterDetailedResults	内容过滤结果会显示被过滤片段的内容过滤ID详细信息。	否
hate	内容过滤严重性结果		否
jailbreak	内容过滤检测结果		否
profanity	内容过滤检测结果		否
self_harm	内容过滤严重性结果		否
sexual	内容过滤严重性结果		否
violence	内容过滤严重性结果		否

audioResponseFormat

定义输出格式。

财产	价值
说明	定义输出格式。
类型	字符串
价值观	`json` `text` `srt` `verbose_json` `vtt`

imageQuality

生成图像的质量。

财产	价值
说明	生成图像的质量。
类型	字符串
默认	汽车
价值观	`auto` `high` `medium` `low` `hd` `standard`

imagesResponseFormat

生成图像返回的格式。

财产	价值
说明	生成图像返回的格式。
类型	字符串
默认	url
价值观	`url` `b64_json`

imagesOutputFormat

生成图像返回的文件格式。仅支持系列机型。

财产	价值
说明	生成图像返回的文件格式。仅支持 gpt-image-1 系列型号。
类型	字符串
默认	png
价值观	`png` `jpeg`

imageSize

生成图像的大小。

财产	价值
说明	生成图像的大小。
类型	字符串
默认	汽车
价值观	`auto` `1792x1024` `1024x1792` `1024x1024` `1024x1536` `1536x1024`

imageStyle

生成图像的风格。仅支持DALL-E-3。

财产	价值
说明	生成图像的风格。仅支持DALL-E-3。
类型	字符串
默认	vivid
价值观	`vivid` `natural`

imageBackground

允许设置生成图像背景的透明度。该参数仅支持GPT-image-1系列模型。

财产	价值
说明	允许设置生成图像背景的透明度。该参数仅支持GPT-image-1系列模型。
类型	字符串
默认	汽车
价值观	`transparent` `opaque` `auto`

generateImagesResponse

名称	类型	Description	必需
已创建	整数	操作创建时的Unix时间戳。	是的
数据	数组	如果操作成功，则为该操作的结果数据	是的
使用情况	imageGenerationsUsage	表示图像生成请求的令牌使用详情。仅适用于GPT-image-1系列型号。	否

imageGenerationsUsage

表示图像生成请求的令牌使用详情。仅适用于GPT-image-1系列型号。

名称	类型	Description	必需
input_tokens	整数	输入标记的数量。	否
input_tokens_details	对象	输入标记的详细分解。	否
图像标记	整数	图像标记的数量。	否
text_tokens	整数	文字标记的数量。	否
output_tokens	整数	输出标记的数量。	否
total_tokens	整数	总使用的代币数量。	否

后续步骤

了解使用 REST API 进行模型和微调。详细了解支持 OpenAI 的Azure模型。

反馈

此页面是否有帮助？

Last updated on 2026-06-24

Azure OpenAI 图像和音频 REST API 参考（2025-04-01-preview）

API 规范

身份验证

REST API 版本管理

数据平面推断

转录 - 创建

URI 参数

请求标头

请求主体

Responses

示例

示例

示例

翻译 - 创作

URI 参数

请求标头

请求主体

Responses

示例

示例

示例

语音 - 创作

URI 参数

请求标头

请求主体

Responses

示例

示例

图像生成 - 创建

URI 参数

请求标头

请求主体

Responses

示例

示例

图像生成 - 编辑

URI 参数

请求标头

请求主体

Responses

组件

innerErrorCode

dalleErrorResponse

dalleError

dalleInnerError

contentFilterSeverityResult

内容过滤检测结果

contentFilterDetailedResults

dalleFilterResults

audioResponseFormat

imageQuality

imagesResponseFormat

imagesOutputFormat

imageSize

imageStyle

imageBackground

generateImagesResponse

imageGenerationsUsage

后续步骤

反馈

其他资源