Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se documentan las operaciones de api rest de generación de imágenes y audio (voz) para Azure OpenAI en la 2024-10-21 versión de disponibilidad general. Para las finalizaciones de chat, incrustaciones, finalizaciones y todas las demás operaciones, consulte la referencia oficial de la API rest de OpenAI Azure.
Especificaciones de API
La gestión e interacción con los modelos y recursos de OpenAI de Azure se divide en tres superficies principales de API:
- Plano de control
- Plano de datos - creación
- Plano de datos - inferencia
Cada superficie/especificación de API encapsula un conjunto diferente de capacidades de Azure OpenAI. Cada API tiene su propio conjunto único de versiones de vista previa y de APIs estables/disponibles en general (GA). Actualmente, los lanzamientos de vista previa tienden a seguir un ritmo mensual.
Importante
Ahora existe una nueva API de inferencia de vista previa. Descubre más en nuestra guía del ciclo de vida de la API.
| API | Última versión previa | Último lanzamiento de GA | Specifications | Descripción |
|---|---|---|---|---|
| Plano de control | 2025-07-01-preview |
2025-06-01 |
Archivos de especificaciones técnicas | La API del plano de control se utiliza para operaciones como la creación de recursos, el despliegue de modelos y otras tareas de gestión de recursos de mayor nivel. El plano de control también regula lo que es posible hacer con capacidades como Azure Resource Manager, Bicep, Terraform y CLI de Azure. |
| Plano de datos | v1 preview |
v1 |
Archivos de especificaciones técnicas | La API del plano de datos controla las operaciones de inferencia y autoría. |
Authentication
Azure OpenAI ofrece dos métodos de autenticación. Puedes usar API Keys o Microsoft Entra ID.
Autenticación de clave API: Para este tipo de autenticación, todas las solicitudes API deben incluir la clave API en la
api-keycabecera HTTP. El Quickstart ofrece orientación sobre cómo realizar llamadas con este tipo de autenticación.Microsoft Entra ID: Puedes autenticar una llamada API usando un token Microsoft Entra. Los tokens de autenticación se incluyen en una solicitud como Authorizationcabecera. El token proporcionado debe ir precedido porBearer, por ejemploBearer YOUR_AUTH_TOKEN. Puedes leer nuestra guía práctica sobre autenticación con Microsoft Entra ID.
Versionado de la API REST
Las APIs de servicio se versionan usando el api-version parámetro de consulta. Todas las versiones siguen la estructura de fechas YYYY-MM-DD. Por ejemplo:
POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01
Inferencia en planos de datos
En el resto de este artículo se tratan las operaciones de imagen y audio en la versión de disponibilidad general de la especificación de inferencia del plano de datos openAI de Azure, 2024-10-21.
Para obtener la vista previa de las operaciones de imagen y audio, consulte la referencia de la API REST de audio y la imagen en versión preliminar.
Transcripciones - Create
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21
Transcribe el audio al idioma de entrada.
Parámetros de URI
| Nombre | En | Obligatorio | Tipo | Descripción |
|---|---|---|---|---|
| endpoint | ruta | Sí | string url |
Compatibles Azure endpoints OpenAI (protocolo y nombre de host, por ejemplo: https://aoairesource.openai.azure.com). Sustituye "aoairesource" por el nombre de tu recurso de Azure OpenAI). https://{your-resource-name}.openai.azure.com |
| ID de despliegue | ruta | Sí | string | ID de despliegue del modelo de voz a texto. Para información sobre modelos compatibles, véase [/azure/ai-foundry/openai/concepts/models#audio-models]. |
| versión de la API | consulta | Sí | string | Versión de API |
Encabezado de solicitud
| Nombre | Obligatorio | Tipo | Descripción |
|---|---|---|---|
| clave de API | Cierto | string | Proporciona aquí la clave API de Azure OpenAI |
Cuerpo de la solicitud
Tipo de contenido: varias partes/datos de formulario
| Nombre | Tipo | Descripción | Obligatorio | Predeterminado |
|---|---|---|---|---|
| archivo | string | El objeto de archivo de audio para transcribir. | Sí | |
| prompt | string | Un texto opcional para guiar el estilo del modelo o continuar un segmento de audio anterior. El prompt debería coincidir con el lenguaje del audio. | No | |
| formato_de_respuesta | audioResponseFormat | Define el formato de la salida. | No | |
| temperatura | número | La temperatura de muestreo, entre 0 y 1. Valores más altos como 0,8 harán que la salida sea más aleatoria, mientras que valores más bajos como 0,2 la harán más enfocada y determinista. Si se establece en 0, el modelo usará la probabilidad logarítmica para aumentar automáticamente la temperatura hasta alcanzar ciertos umbrales. | No | 0 |
| language | string | El idioma del audio de entrada. Suministrar el lenguaje de entrada en formato ISO-639-1 mejorará la precisión y la latencia. | No |
Responses
Código de estado: 200
Descripción: Aceptar
| Tipo de contenido | Tipo | Descripción |
|---|---|---|
| application/json | audioRespuesta o audioVerboseResponse | |
| text/plain | string | Texto transcrito en el formato de salida (cuando response_format era de texto, vtt o srt). |
Examples
Example
Obtiene texto transcrito y metadatos asociados de los datos de audio hablado proporcionados.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21
Respuestas: Código de estado: 200
{
"body": {
"text": "A structured object when requesting json or verbose_json"
}
}
Example
Obtiene texto transcrito y metadatos asociados de los datos de audio hablado proporcionados.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21
"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"
Respuestas: Código de estado: 200
{
"type": "string",
"example": "plain text when requesting text, srt, or vtt"
}
Traducciones - Create
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21
Transcribe y traduce el audio de entrada a texto en inglés.
Parámetros de URI
| Nombre | En | Obligatorio | Tipo | Descripción |
|---|---|---|---|---|
| endpoint | ruta | Sí | string url |
Compatibles Azure endpoints OpenAI (protocolo y nombre de host, por ejemplo: https://aoairesource.openai.azure.com). Sustituye "aoairesource" por el nombre de tu recurso de Azure OpenAI). https://{your-resource-name}.openai.azure.com |
| ID de despliegue | ruta | Sí | string | ID de despliegue del modelo whisper que se desplegó. Para información sobre modelos compatibles, véase [/azure/ai-foundry/openai/concepts/models#audio-models]. |
| versión de la API | consulta | Sí | string | Versión de API |
Encabezado de solicitud
| Nombre | Obligatorio | Tipo | Descripción |
|---|---|---|---|
| clave de API | Cierto | string | Proporciona aquí la clave API de Azure OpenAI |
Cuerpo de la solicitud
Tipo de contenido: varias partes/datos de formulario
| Nombre | Tipo | Descripción | Obligatorio | Predeterminado |
|---|---|---|---|---|
| archivo | string | El archivo de audio para traducir. | Sí | |
| prompt | string | Un texto opcional para guiar el estilo del modelo o continuar un segmento de audio anterior. El prompt debería estar en inglés. | No | |
| formato_de_respuesta | audioResponseFormat | Define el formato de la salida. | No | |
| temperatura | número | La temperatura de muestreo, entre 0 y 1. Valores más altos como 0,8 harán que la salida sea más aleatoria, mientras que valores más bajos como 0,2 la harán más enfocada y determinista. Si se establece en 0, el modelo usará la probabilidad logarítmica para aumentar automáticamente la temperatura hasta alcanzar ciertos umbrales. | No | 0 |
Responses
Código de estado: 200
Descripción: Aceptar
| Tipo de contenido | Tipo | Descripción |
|---|---|---|
| application/json | audioRespuesta o audioVerboseResponse | |
| text/plain | string | Texto transcrito en el formato de salida (cuando response_format era de texto, vtt o srt). |
Examples
Example
Obtiene texto transcrito en inglés y metadatos asociados a partir de los datos de audio hablado proporcionados.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21
"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"
Respuestas: Código de estado: 200
{
"body": {
"text": "A structured object when requesting json or verbose_json"
}
}
Example
Obtiene texto transcrito en inglés y metadatos asociados a partir de los datos de audio hablado proporcionados.
POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21
"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"
Respuestas: Código de estado: 200
{
"type": "string",
"example": "plain text when requesting text, srt, or vtt"
}
Generación de imágenes
POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21
Genera un lote de imágenes a partir de un pie de foto en un despliegue dado de un modelo dall-e
Parámetros de URI
| Nombre | En | Obligatorio | Tipo | Descripción |
|---|---|---|---|---|
| endpoint | ruta | Sí | string url |
Compatibles Azure endpoints OpenAI (protocolo y nombre de host, por ejemplo: https://aoairesource.openai.azure.com). Sustituye "aoairesource" por el nombre de tu recurso de Azure OpenAI). https://{your-resource-name}.openai.azure.com |
| ID de despliegue | ruta | Sí | string | ID de despliegue del modelo dall-e que se desplegó. |
| versión de la API | consulta | Sí | string | Versión de API |
Encabezado de solicitud
| Nombre | Obligatorio | Tipo | Descripción |
|---|---|---|---|
| clave de API | Cierto | string | Proporciona aquí la clave API de Azure OpenAI |
Cuerpo de la solicitud
Tipo-Contenido: application/json
| Nombre | Tipo | Descripción | Obligatorio | Predeterminado |
|---|---|---|---|---|
| prompt | string | Una descripción en texto de la(s) imagen(es) deseada(s). La longitud máxima es de 4.000 caracteres. | Sí | |
| n | entero | El número de imágenes que hay que generar. | No | 1 |
| size | imageSize | El tamaño de las imágenes generadas. | No | 1024x1024 |
| formato_de_respuesta | imagesResponseFormat | El formato en el que se devuelven las imágenes generadas. | No | url |
| user | string | Un identificador único que representa a tu usuario final, que puede ayudar a monitorizar y detectar abusos. | No | |
| calidad | imageQuality | La calidad de la imagen que se generará. | No | Estándar |
| estilo | imageStyle | El estilo de las imágenes generadas. | No | vívido |
Responses
Código de estado: 200
Descripción: Ok
| Tipo de contenido | Tipo | Descripción |
|---|---|---|
| application/json | generateImagesResponse |
Código de estado: por defecto
Descripción: Ha ocurrido un error.
| Tipo de contenido | Tipo | Descripción |
|---|---|---|
| application/json | dalleErrorResponse |
Examples
Example
Crea imágenes con un prompt.
POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21
{
"prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
"n": 1,
"style": "natural",
"quality": "standard"
}
Respuestas: Código de estado: 200
{
"body": {
"created": 1698342300,
"data": [
{
"revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
"prompt_filter_results": {
"sexual": {
"severity": "safe",
"filtered": false
},
"violence": {
"severity": "safe",
"filtered": false
},
"hate": {
"severity": "safe",
"filtered": false
},
"self_harm": {
"severity": "safe",
"filtered": false
},
"profanity": {
"detected": false,
"filtered": false
}
},
"url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
"content_filter_results": {
"sexual": {
"severity": "safe",
"filtered": false
},
"violence": {
"severity": "safe",
"filtered": false
},
"hate": {
"severity": "safe",
"filtered": false
},
"self_harm": {
"severity": "safe",
"filtered": false
}
}
}
]
}
}
Componentes
Para conocer las definiciones de esquema usadas por chat, finalizaciones, incrustaciones y otras operaciones de texto, consulte la referencia de la API rest de OpenAI Azure. Los siguientes esquemas admiten las operaciones de imagen y audio en esta página.
innerErrorCode
Códigos de error para el objeto de error interno.
Descripción: Códigos de error para el objeto de error interno.
Tipo: cadena
Valor predeterminado:
Nombre de Enum: InnerErrorCode
Valores de enumeración:
| Value | Descripción |
|---|---|
| ResponsibleAIPolicyViolation | El prompt violó una de las reglas más de filtro de contenido. |
dalleErrorResponse
| Nombre | Tipo | Descripción | Obligatorio | Predeterminado |
|---|---|---|---|---|
| error | dalleError | No |
dalleError
| Nombre | Tipo | Descripción | Obligatorio | Predeterminado |
|---|---|---|---|---|
| param | string | No | ||
| type | string | No | ||
| inner_error | dalleInnerError | Error interno con detalles adicionales. | No |
dalleInnerError
Error interno con detalles adicionales.
| Nombre | Tipo | Descripción | Obligatorio | Predeterminado |
|---|---|---|---|---|
| código | innerErrorCode | Códigos de error para el objeto de error interno. | No | |
| content_filter_results | dalleFilterResults | Información sobre la categoría de filtrado de contenido (odio, sexual, violencia, self_harm), si ha sido detectada, así como el nivel de gravedad (escala very_low, baja, media, alta que determina la intensidad y el nivel de riesgo del contenido dañino) y si ha sido filtrado o no. Información sobre contenido de jailbreak y palabrotas, si se ha detectado y si ha sido filtrado o no. Y información sobre la lista de clientes bloqueados, si ha sido filtrada y su identificación. | No | |
| mensaje_revisado | string | El prompt que se usó para generar la imagen, si hubo alguna revisión del prompt. | No |
contentFilterSeverityResult
| Nombre | Tipo | Descripción | Obligatorio | Predeterminado |
|---|---|---|---|---|
| filtered | boolean | Sí | ||
| severity | string | No |
contentFilterDetectedResult
| Nombre | Tipo | Descripción | Obligatorio | Predeterminado |
|---|---|---|---|---|
| filtered | boolean | Sí | ||
| detectado | boolean | No |
dalleFilterResults
Información sobre la categoría de filtrado de contenido (odio, sexual, violencia, self_harm), si ha sido detectada, así como el nivel de gravedad (escala very_low, baja, media, alta que determina la intensidad y el nivel de riesgo del contenido dañino) y si ha sido filtrado o no. Información sobre contenido de jailbreak y palabrotas, si se ha detectado y si ha sido filtrado o no. Y información sobre la lista de clientes bloqueados, si ha sido filtrada y su identificación.
| Nombre | Tipo | Descripción | Obligatorio | Predeterminado |
|---|---|---|---|---|
| sexual | contentFilterSeverityResult | No | ||
| violencia | contentFilterSeverityResult | No | ||
| odio | contentFilterSeverityResult | No | ||
| self_harm | contentFilterSeverityResult | No | ||
| soece | resultadoDetectadoPorElFiltroDeContenido | No | ||
| jailbreak | resultadoDetectadoPorElFiltroDeContenido | No |
audioResponse
Respuesta de traducción o transcripción cuando response_format era json
| Nombre | Tipo | Descripción | Obligatorio | Predeterminado |
|---|---|---|---|---|
| Mensaje de texto | string | Texto traducido o transcrito. | Sí |
audioVerboseResponse
Respuesta de traducción o transcripción cuando response_format estaba verbose_json
| Nombre | Tipo | Descripción | Obligatorio | Predeterminado |
|---|---|---|---|---|
| Mensaje de texto | string | Texto traducido o transcrito. | Sí | |
| tarea | string | Tipo de tarea de audio. | No | |
| language | string | Language. | No | |
| duración | número | Duración. | No | |
| segmentos | array | No |
audioResponseFormat
Define el formato de la salida.
Descripción: Define el formato de la salida.
Tipo: cadena
Valor predeterminado:
Valores de enumeración:
- json
- Mensaje de texto
- srt
- verbose_json
- vtt
imageQuality
La calidad de la imagen que se generará.
Descripción: La calidad de la imagen que se generará.
Tipo: cadena
Valor predeterminado: estándar
Nombre Enum: Quality
Valores de enumeración:
| Value | Descripción |
|---|---|
| Estándar | La calidad estándar crea imágenes con calidad estándar. |
| hd | La calidad HD crea imágenes con detalles más finos y mayor consistencia en toda la imagen. |
imagesResponseFormat
El formato en el que se devuelven las imágenes generadas.
Descripción: El formato en el que se devuelven las imágenes generadas.
Tipo: cadena
Valor predeterminado: url
Nombre de Enum: ImágenesFormatoRespuesta
Valores de enumeración:
| Value | Descripción |
|---|---|
| url | La URL que proporciona acceso temporal para descargar las imágenes generadas. |
| b64_json | Las imágenes generadas se devuelven como cadena codificada en base64. |
imageSize
El tamaño de las imágenes generadas.
Descripción: El tamaño de las imágenes generadas.
Tipo: cadena
Valor predeterminado: 1024x1024
Nombre de Enum: Tamaño
Valores de enumeración:
| Value | Descripción |
|---|---|
| 1792x1024 | El tamaño deseado de la imagen generada es de 1792x1024 píxeles. |
| 1024x1792 | El tamaño deseado de la imagen generada es de 1024x1792 píxeles. |
| 1024x1024 | El tamaño deseado de la imagen generada es 1024x1024 píxeles. |
imageStyle
El estilo de las imágenes generadas.
Descripción: El estilo de las imágenes generadas.
Tipo: cadena
Valor predeterminado: vívido
Nombre de Enum: Style
Valores de enumeración:
| Value | Descripción |
|---|---|
| vívido | Vivid crea imágenes hiperrealistas y dramáticas. |
| natural | Natural crea imágenes más naturales y menos hiperrealistas. |
generateImagesResponse
| Nombre | Tipo | Descripción | Obligatorio | Predeterminado |
|---|---|---|---|---|
| creado | entero | La marca de tiempo de Unix cuando se creó la operación. | Sí | |
| datos | array | Los datos de resultados de la operación, si tienen éxito | Sí |
Pasos siguientes
Obtenga información sobre los modelos y la optimización con la API REST. Obtenga más información sobre los modelos underlying que potencian Azure OpenAI.