Azure referencia de la API REST de audio y imagen de OpenAI (2024-10-21)

En este artículo se documentan las operaciones de api rest de generación de imágenes y audio (voz) para Azure OpenAI en la 2024-10-21 versión de disponibilidad general. Para las finalizaciones de chat, incrustaciones, finalizaciones y todas las demás operaciones, consulte la referencia oficial de la API rest de OpenAI Azure.

Especificaciones de API

La gestión e interacción con los modelos y recursos de OpenAI de Azure se divide en tres superficies principales de API:

Plano de control
Plano de datos - creación
Plano de datos - inferencia

Cada superficie/especificación de API encapsula un conjunto diferente de capacidades de Azure OpenAI. Cada API tiene su propio conjunto único de versiones de vista previa y de APIs estables/disponibles en general (GA). Actualmente, los lanzamientos de vista previa tienden a seguir un ritmo mensual.

Importante

Ahora existe una nueva API de inferencia de vista previa. Descubre más en nuestra guía del ciclo de vida de la API.

API	Última versión previa	Último lanzamiento de GA	Specifications	Descripción
Plano de control	`2025-07-01-preview`	`2025-06-01`	Archivos de especificaciones técnicas	La API del plano de control se utiliza para operaciones como la creación de recursos, el despliegue de modelos y otras tareas de gestión de recursos de mayor nivel. El plano de control también regula lo que es posible hacer con capacidades como Azure Resource Manager, Bicep, Terraform y CLI de Azure.
Plano de datos	`v1 preview`	`v1`	Archivos de especificaciones técnicas	La API del plano de datos controla las operaciones de inferencia y autoría.

Authentication

Azure OpenAI ofrece dos métodos de autenticación. Puedes usar API Keys o Microsoft Entra ID.

Autenticación de clave API: Para este tipo de autenticación, todas las solicitudes API deben incluir la clave API en la api-key cabecera HTTP. El Quickstart ofrece orientación sobre cómo realizar llamadas con este tipo de autenticación.
Microsoft Entra ID: Puedes autenticar una llamada API usando un token Microsoft Entra. Los tokens de autenticación se incluyen en una solicitud como Authorization cabecera. El token proporcionado debe ir precedido por Bearer, por ejemplo Bearer YOUR_AUTH_TOKEN. Puedes leer nuestra guía práctica sobre autenticación con Microsoft Entra ID.

Versionado de la API REST

Las APIs de servicio se versionan usando el api-version parámetro de consulta. Todas las versiones siguen la estructura de fechas YYYY-MM-DD. Por ejemplo:

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01

Inferencia en planos de datos

En el resto de este artículo se tratan las operaciones de imagen y audio en la versión de disponibilidad general de la especificación de inferencia del plano de datos openAI de Azure, 2024-10-21.

Para obtener la vista previa de las operaciones de imagen y audio, consulte la referencia de la API REST de audio y la imagen en versión preliminar.

Transcripciones - Create

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Transcribe el audio al idioma de entrada.

Parámetros de URI

Nombre	En	Obligatorio	Tipo	Descripción
endpoint	ruta	Sí	string url	Compatibles Azure endpoints OpenAI (protocolo y nombre de host, por ejemplo: `https://aoairesource.openai.azure.com`). Sustituye "aoairesource" por el nombre de tu recurso de Azure OpenAI). https://{your-resource-name}.openai.azure.com
ID de despliegue	ruta	Sí	string	ID de despliegue del modelo de voz a texto. Para información sobre modelos compatibles, véase [/azure/ai-foundry/openai/concepts/models#audio-models].
versión de la API	consulta	Sí	string	Versión de API

Encabezado de solicitud

Nombre	Obligatorio	Tipo	Descripción
clave de API	Cierto	string	Proporciona aquí la clave API de Azure OpenAI

Cuerpo de la solicitud

Tipo de contenido: varias partes/datos de formulario

Nombre	Tipo	Descripción	Obligatorio	Predeterminado
archivo	string	El objeto de archivo de audio para transcribir.	Sí
prompt	string	Un texto opcional para guiar el estilo del modelo o continuar un segmento de audio anterior. El prompt debería coincidir con el lenguaje del audio.	No
formato_de_respuesta	audioResponseFormat	Define el formato de la salida.	No
temperatura	número	La temperatura de muestreo, entre 0 y 1. Valores más altos como 0,8 harán que la salida sea más aleatoria, mientras que valores más bajos como 0,2 la harán más enfocada y determinista. Si se establece en 0, el modelo usará la probabilidad logarítmica para aumentar automáticamente la temperatura hasta alcanzar ciertos umbrales.	No	0
language	string	El idioma del audio de entrada. Suministrar el lenguaje de entrada en formato ISO-639-1 mejorará la precisión y la latencia.	No

Responses

Código de estado: 200

Descripción: Aceptar

Tipo de contenido	Tipo	Descripción
application/json	audioRespuesta o audioVerboseResponse
text/plain	string	Texto transcrito en el formato de salida (cuando response_format era de texto, vtt o srt).

Examples

Example

Obtiene texto transcrito y metadatos asociados de los datos de audio hablado proporcionados.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Respuestas: Código de estado: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Example

Obtiene texto transcrito y metadatos asociados de los datos de audio hablado proporcionados.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respuestas: Código de estado: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Traducciones - Create

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

Transcribe y traduce el audio de entrada a texto en inglés.

Parámetros de URI

Nombre	En	Obligatorio	Tipo	Descripción
endpoint	ruta	Sí	string url	Compatibles Azure endpoints OpenAI (protocolo y nombre de host, por ejemplo: `https://aoairesource.openai.azure.com`). Sustituye "aoairesource" por el nombre de tu recurso de Azure OpenAI). https://{your-resource-name}.openai.azure.com
ID de despliegue	ruta	Sí	string	ID de despliegue del modelo whisper que se desplegó. Para información sobre modelos compatibles, véase [/azure/ai-foundry/openai/concepts/models#audio-models].
versión de la API	consulta	Sí	string	Versión de API

Encabezado de solicitud

Nombre	Obligatorio	Tipo	Descripción
clave de API	Cierto	string	Proporciona aquí la clave API de Azure OpenAI

Cuerpo de la solicitud

Tipo de contenido: varias partes/datos de formulario

Nombre	Tipo	Descripción	Obligatorio	Predeterminado
archivo	string	El archivo de audio para traducir.	Sí
prompt	string	Un texto opcional para guiar el estilo del modelo o continuar un segmento de audio anterior. El prompt debería estar en inglés.	No
formato_de_respuesta	audioResponseFormat	Define el formato de la salida.	No
temperatura	número	La temperatura de muestreo, entre 0 y 1. Valores más altos como 0,8 harán que la salida sea más aleatoria, mientras que valores más bajos como 0,2 la harán más enfocada y determinista. Si se establece en 0, el modelo usará la probabilidad logarítmica para aumentar automáticamente la temperatura hasta alcanzar ciertos umbrales.	No	0

Responses

Código de estado: 200

Descripción: Aceptar

Tipo de contenido	Tipo	Descripción
application/json	audioRespuesta o audioVerboseResponse
text/plain	string	Texto transcrito en el formato de salida (cuando response_format era de texto, vtt o srt).

Examples

Example

Obtiene texto transcrito en inglés y metadatos asociados a partir de los datos de audio hablado proporcionados.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respuestas: Código de estado: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Example

Obtiene texto transcrito en inglés y metadatos asociados a partir de los datos de audio hablado proporcionados.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respuestas: Código de estado: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Generación de imágenes

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

Genera un lote de imágenes a partir de un pie de foto en un despliegue dado de un modelo dall-e

Parámetros de URI

Nombre	En	Obligatorio	Tipo	Descripción
endpoint	ruta	Sí	string url	Compatibles Azure endpoints OpenAI (protocolo y nombre de host, por ejemplo: `https://aoairesource.openai.azure.com`). Sustituye "aoairesource" por el nombre de tu recurso de Azure OpenAI). https://{your-resource-name}.openai.azure.com
ID de despliegue	ruta	Sí	string	ID de despliegue del modelo dall-e que se desplegó.
versión de la API	consulta	Sí	string	Versión de API

Encabezado de solicitud

Nombre	Obligatorio	Tipo	Descripción
clave de API	Cierto	string	Proporciona aquí la clave API de Azure OpenAI

Cuerpo de la solicitud

Tipo-Contenido: application/json

Nombre	Tipo	Descripción	Obligatorio	Predeterminado
prompt	string	Una descripción en texto de la(s) imagen(es) deseada(s). La longitud máxima es de 4.000 caracteres.	Sí
n	entero	El número de imágenes que hay que generar.	No	1
size	imageSize	El tamaño de las imágenes generadas.	No	1024x1024
formato_de_respuesta	imagesResponseFormat	El formato en el que se devuelven las imágenes generadas.	No	url
user	string	Un identificador único que representa a tu usuario final, que puede ayudar a monitorizar y detectar abusos.	No
calidad	imageQuality	La calidad de la imagen que se generará.	No	Estándar
estilo	imageStyle	El estilo de las imágenes generadas.	No	vívido

Responses

Código de estado: 200

Descripción: Ok

Tipo de contenido	Tipo	Descripción
application/json	generateImagesResponse

Código de estado: por defecto

Descripción: Ha ocurrido un error.

Tipo de contenido	Tipo	Descripción
application/json	dalleErrorResponse

Examples

Example

Crea imágenes con un prompt.

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

{
 "prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
 "n": 1,
 "style": "natural",
 "quality": "standard"
}

Respuestas: Código de estado: 200

{
  "body": {
    "created": 1698342300,
    "data": [
      {
        "revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
        "prompt_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          },
          "profanity": {
            "detected": false,
            "filtered": false
          }
        },
        "url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
        "content_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          }
        }
      }
    ]
  }
}

Componentes

Para conocer las definiciones de esquema usadas por chat, finalizaciones, incrustaciones y otras operaciones de texto, consulte la referencia de la API rest de OpenAI Azure. Los siguientes esquemas admiten las operaciones de imagen y audio en esta página.

innerErrorCode

Códigos de error para el objeto de error interno.

Descripción: Códigos de error para el objeto de error interno.

Tipo: cadena

Valor predeterminado:

Nombre de Enum: InnerErrorCode

Valores de enumeración:

Value	Descripción
ResponsibleAIPolicyViolation	El prompt violó una de las reglas más de filtro de contenido.

dalleErrorResponse

Nombre	Tipo	Descripción	Obligatorio	Predeterminado
error	dalleError		No

dalleError

Nombre	Tipo	Descripción	Obligatorio
param	string		No
type	string		No
inner_error	dalleInnerError	Error interno con detalles adicionales.	No

dalleInnerError

Error interno con detalles adicionales.

Nombre	Tipo	Descripción	Obligatorio
código	innerErrorCode	Códigos de error para el objeto de error interno.	No
content_filter_results	dalleFilterResults	Información sobre la categoría de filtrado de contenido (odio, sexual, violencia, self_harm), si ha sido detectada, así como el nivel de gravedad (escala very_low, baja, media, alta que determina la intensidad y el nivel de riesgo del contenido dañino) y si ha sido filtrado o no. Información sobre contenido de jailbreak y palabrotas, si se ha detectado y si ha sido filtrado o no. Y información sobre la lista de clientes bloqueados, si ha sido filtrada y su identificación.	No
mensaje_revisado	string	El prompt que se usó para generar la imagen, si hubo alguna revisión del prompt.	No

contentFilterSeverityResult

Nombre	Tipo	Descripción	Obligatorio	Predeterminado
filtered	boolean		Sí
severity	string		No

contentFilterDetectedResult

Nombre	Tipo	Descripción	Obligatorio	Predeterminado
filtered	boolean		Sí
detectado	boolean		No

dalleFilterResults

Información sobre la categoría de filtrado de contenido (odio, sexual, violencia, self_harm), si ha sido detectada, así como el nivel de gravedad (escala very_low, baja, media, alta que determina la intensidad y el nivel de riesgo del contenido dañino) y si ha sido filtrado o no. Información sobre contenido de jailbreak y palabrotas, si se ha detectado y si ha sido filtrado o no. Y información sobre la lista de clientes bloqueados, si ha sido filtrada y su identificación.

Nombre	Tipo	Obligatorio
sexual	contentFilterSeverityResult	No
violencia	contentFilterSeverityResult	No
odio	contentFilterSeverityResult	No
self_harm	contentFilterSeverityResult	No
soece	resultadoDetectadoPorElFiltroDeContenido	No
jailbreak	resultadoDetectadoPorElFiltroDeContenido	No

audioResponse

Respuesta de traducción o transcripción cuando response_format era json

Nombre	Tipo	Descripción	Obligatorio	Predeterminado
Mensaje de texto	string	Texto traducido o transcrito.	Sí

audioVerboseResponse

Respuesta de traducción o transcripción cuando response_format estaba verbose_json

Nombre	Tipo	Descripción	Obligatorio
Mensaje de texto	string	Texto traducido o transcrito.	Sí
tarea	string	Tipo de tarea de audio.	No
language	string	Language.	No
duración	número	Duración.	No
segmentos	array		No

audioResponseFormat

Define el formato de la salida.

Descripción: Define el formato de la salida.

Tipo: cadena

Valor predeterminado:

Valores de enumeración:

json
Mensaje de texto
srt
verbose_json
vtt

imageQuality

La calidad de la imagen que se generará.

Descripción: La calidad de la imagen que se generará.

Tipo: cadena

Valor predeterminado: estándar

Nombre Enum: Quality

Valores de enumeración:

Value	Descripción
Estándar	La calidad estándar crea imágenes con calidad estándar.
hd	La calidad HD crea imágenes con detalles más finos y mayor consistencia en toda la imagen.

imagesResponseFormat

El formato en el que se devuelven las imágenes generadas.

Descripción: El formato en el que se devuelven las imágenes generadas.

Tipo: cadena

Valor predeterminado: url

Nombre de Enum: ImágenesFormatoRespuesta

Valores de enumeración:

Value	Descripción
url	La URL que proporciona acceso temporal para descargar las imágenes generadas.
b64_json	Las imágenes generadas se devuelven como cadena codificada en base64.

imageSize

El tamaño de las imágenes generadas.

Descripción: El tamaño de las imágenes generadas.

Tipo: cadena

Valor predeterminado: 1024x1024

Nombre de Enum: Tamaño

Valores de enumeración:

Value	Descripción
1792x1024	El tamaño deseado de la imagen generada es de 1792x1024 píxeles.
1024x1792	El tamaño deseado de la imagen generada es de 1024x1792 píxeles.
1024x1024	El tamaño deseado de la imagen generada es 1024x1024 píxeles.

imageStyle

El estilo de las imágenes generadas.

Descripción: El estilo de las imágenes generadas.

Tipo: cadena

Valor predeterminado: vívido

Nombre de Enum: Style

Valores de enumeración:

Value	Descripción
vívido	Vivid crea imágenes hiperrealistas y dramáticas.
natural	Natural crea imágenes más naturales y menos hiperrealistas.

generateImagesResponse

Nombre	Tipo	Descripción	Obligatorio	Predeterminado
creado	entero	La marca de tiempo de Unix cuando se creó la operación.	Sí
datos	array	Los datos de resultados de la operación, si tienen éxito	Sí

Pasos siguientes

Obtenga información sobre los modelos y la optimización con la API REST. Obtenga más información sobre los modelos underlying que potencian Azure OpenAI.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-06-24

Azure referencia de la API REST de audio y imagen de OpenAI (2024-10-21)

Especificaciones de API

Authentication

Versionado de la API REST

Inferencia en planos de datos

Transcripciones - Create

Parámetros de URI

Encabezado de solicitud

Cuerpo de la solicitud

Responses

Examples

Example

Example

Traducciones - Create

Parámetros de URI

Encabezado de solicitud

Cuerpo de la solicitud

Responses

Examples

Example

Example

Generación de imágenes

Parámetros de URI

Encabezado de solicitud

Cuerpo de la solicitud

Responses

Examples

Example

Componentes

innerErrorCode

dalleErrorResponse

dalleError

dalleInnerError

contentFilterSeverityResult

contentFilterDetectedResult

dalleFilterResults

audioResponse

audioVerboseResponse

audioResponseFormat

imageQuality

imagesResponseFormat

imageSize

imageStyle

generateImagesResponse

Pasos siguientes

Comentarios

Recursos adicionales