Azure referencia de la API REST de audio y imagen de OpenAI (2024-10-21)

En este artículo se documentan las operaciones de api rest de generación de imágenes y audio (voz) para Azure OpenAI en la 2024-10-21 versión de disponibilidad general. Para las finalizaciones de chat, incrustaciones, finalizaciones y todas las demás operaciones, consulte la referencia oficial de la API rest de OpenAI Azure.

Especificaciones de API

La gestión e interacción con los modelos y recursos de OpenAI de Azure se divide en tres superficies principales de API:

  • Plano de control
  • Plano de datos - creación
  • Plano de datos - inferencia

Cada superficie/especificación de API encapsula un conjunto diferente de capacidades de Azure OpenAI. Cada API tiene su propio conjunto único de versiones de vista previa y de APIs estables/disponibles en general (GA). Actualmente, los lanzamientos de vista previa tienden a seguir un ritmo mensual.

Importante

Ahora existe una nueva API de inferencia de vista previa. Descubre más en nuestra guía del ciclo de vida de la API.

API Última versión previa Último lanzamiento de GA Specifications Descripción
Plano de control 2025-07-01-preview 2025-06-01 Archivos de especificaciones técnicas La API del plano de control se utiliza para operaciones como la creación de recursos, el despliegue de modelos y otras tareas de gestión de recursos de mayor nivel. El plano de control también regula lo que es posible hacer con capacidades como Azure Resource Manager, Bicep, Terraform y CLI de Azure.
Plano de datos v1 preview v1 Archivos de especificaciones técnicas La API del plano de datos controla las operaciones de inferencia y autoría.

Authentication

Azure OpenAI ofrece dos métodos de autenticación. Puedes usar API Keys o Microsoft Entra ID.

  • Autenticación de clave API: Para este tipo de autenticación, todas las solicitudes API deben incluir la clave API en la api-key cabecera HTTP. El Quickstart ofrece orientación sobre cómo realizar llamadas con este tipo de autenticación.

  • Microsoft Entra ID: Puedes autenticar una llamada API usando un token Microsoft Entra. Los tokens de autenticación se incluyen en una solicitud como Authorization cabecera. El token proporcionado debe ir precedido por Bearer, por ejemplo Bearer YOUR_AUTH_TOKEN. Puedes leer nuestra guía práctica sobre autenticación con Microsoft Entra ID.

Versionado de la API REST

Las APIs de servicio se versionan usando el api-version parámetro de consulta. Todas las versiones siguen la estructura de fechas YYYY-MM-DD. Por ejemplo:

POST https://YOUR_RESOURCE_NAME.openai.azure.com/openai/deployments/YOUR_DEPLOYMENT_NAME/chat/completions?api-version=2024-06-01

Inferencia en planos de datos

En el resto de este artículo se tratan las operaciones de imagen y audio en la versión de disponibilidad general de la especificación de inferencia del plano de datos openAI de Azure, 2024-10-21.

Para obtener la vista previa de las operaciones de imagen y audio, consulte la referencia de la API REST de audio y la imagen en versión preliminar.

Transcripciones - Create

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Transcribe el audio al idioma de entrada.

Parámetros de URI

Nombre En Obligatorio Tipo Descripción
endpoint ruta string
url
Compatibles Azure endpoints OpenAI (protocolo y nombre de host, por ejemplo: https://aoairesource.openai.azure.com). Sustituye "aoairesource" por el nombre de tu recurso de Azure OpenAI). https://{your-resource-name}.openai.azure.com
ID de despliegue ruta string ID de despliegue del modelo de voz a texto.

Para información sobre modelos compatibles, véase [/azure/ai-foundry/openai/concepts/models#audio-models].
versión de la API consulta string Versión de API

Encabezado de solicitud

Nombre Obligatorio Tipo Descripción
clave de API Cierto string Proporciona aquí la clave API de Azure OpenAI

Cuerpo de la solicitud

Tipo de contenido: varias partes/datos de formulario

Nombre Tipo Descripción Obligatorio Predeterminado
archivo string El objeto de archivo de audio para transcribir.
prompt string Un texto opcional para guiar el estilo del modelo o continuar un segmento de audio anterior. El prompt debería coincidir con el lenguaje del audio. No
formato_de_respuesta audioResponseFormat Define el formato de la salida. No
temperatura número La temperatura de muestreo, entre 0 y 1. Valores más altos como 0,8 harán que la salida sea más aleatoria, mientras que valores más bajos como 0,2 la harán más enfocada y determinista. Si se establece en 0, el modelo usará la probabilidad logarítmica para aumentar automáticamente la temperatura hasta alcanzar ciertos umbrales. No 0
language string El idioma del audio de entrada. Suministrar el lenguaje de entrada en formato ISO-639-1 mejorará la precisión y la latencia. No

Responses

Código de estado: 200

Descripción: Aceptar

Tipo de contenido Tipo Descripción
application/json audioRespuesta o audioVerboseResponse
text/plain string Texto transcrito en el formato de salida (cuando response_format era de texto, vtt o srt).

Examples

Example

Obtiene texto transcrito y metadatos asociados de los datos de audio hablado proporcionados.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

Respuestas: Código de estado: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Example

Obtiene texto transcrito y metadatos asociados de los datos de audio hablado proporcionados.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/transcriptions?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respuestas: Código de estado: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Traducciones - Create

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

Transcribe y traduce el audio de entrada a texto en inglés.

Parámetros de URI

Nombre En Obligatorio Tipo Descripción
endpoint ruta string
url
Compatibles Azure endpoints OpenAI (protocolo y nombre de host, por ejemplo: https://aoairesource.openai.azure.com). Sustituye "aoairesource" por el nombre de tu recurso de Azure OpenAI). https://{your-resource-name}.openai.azure.com
ID de despliegue ruta string ID de despliegue del modelo whisper que se desplegó.

Para información sobre modelos compatibles, véase [/azure/ai-foundry/openai/concepts/models#audio-models].
versión de la API consulta string Versión de API

Encabezado de solicitud

Nombre Obligatorio Tipo Descripción
clave de API Cierto string Proporciona aquí la clave API de Azure OpenAI

Cuerpo de la solicitud

Tipo de contenido: varias partes/datos de formulario

Nombre Tipo Descripción Obligatorio Predeterminado
archivo string El archivo de audio para traducir.
prompt string Un texto opcional para guiar el estilo del modelo o continuar un segmento de audio anterior. El prompt debería estar en inglés. No
formato_de_respuesta audioResponseFormat Define el formato de la salida. No
temperatura número La temperatura de muestreo, entre 0 y 1. Valores más altos como 0,8 harán que la salida sea más aleatoria, mientras que valores más bajos como 0,2 la harán más enfocada y determinista. Si se establece en 0, el modelo usará la probabilidad logarítmica para aumentar automáticamente la temperatura hasta alcanzar ciertos umbrales. No 0

Responses

Código de estado: 200

Descripción: Aceptar

Tipo de contenido Tipo Descripción
application/json audioRespuesta o audioVerboseResponse
text/plain string Texto transcrito en el formato de salida (cuando response_format era de texto, vtt o srt).

Examples

Example

Obtiene texto transcrito en inglés y metadatos asociados a partir de los datos de audio hablado proporcionados.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respuestas: Código de estado: 200

{
  "body": {
    "text": "A structured object when requesting json or verbose_json"
  }
}

Example

Obtiene texto transcrito en inglés y metadatos asociados a partir de los datos de audio hablado proporcionados.

POST https://{endpoint}/openai/deployments/{deployment-id}/audio/translations?api-version=2024-10-21

"---multipart-boundary\nContent-Disposition: form-data; name=\"file\"; filename=\"file.wav\"\nContent-Type: application/octet-stream\n\nRIFF..audio.data.omitted\n---multipart-boundary--"

Respuestas: Código de estado: 200

{
  "type": "string",
  "example": "plain text when requesting text, srt, or vtt"
}

Generación de imágenes

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

Genera un lote de imágenes a partir de un pie de foto en un despliegue dado de un modelo dall-e

Parámetros de URI

Nombre En Obligatorio Tipo Descripción
endpoint ruta string
url
Compatibles Azure endpoints OpenAI (protocolo y nombre de host, por ejemplo: https://aoairesource.openai.azure.com). Sustituye "aoairesource" por el nombre de tu recurso de Azure OpenAI). https://{your-resource-name}.openai.azure.com
ID de despliegue ruta string ID de despliegue del modelo dall-e que se desplegó.
versión de la API consulta string Versión de API

Encabezado de solicitud

Nombre Obligatorio Tipo Descripción
clave de API Cierto string Proporciona aquí la clave API de Azure OpenAI

Cuerpo de la solicitud

Tipo-Contenido: application/json

Nombre Tipo Descripción Obligatorio Predeterminado
prompt string Una descripción en texto de la(s) imagen(es) deseada(s). La longitud máxima es de 4.000 caracteres.
n entero El número de imágenes que hay que generar. No 1
size imageSize El tamaño de las imágenes generadas. No 1024x1024
formato_de_respuesta imagesResponseFormat El formato en el que se devuelven las imágenes generadas. No url
user string Un identificador único que representa a tu usuario final, que puede ayudar a monitorizar y detectar abusos. No
calidad imageQuality La calidad de la imagen que se generará. No Estándar
estilo imageStyle El estilo de las imágenes generadas. No vívido

Responses

Código de estado: 200

Descripción: Ok

Tipo de contenido Tipo Descripción
application/json generateImagesResponse

Código de estado: por defecto

Descripción: Ha ocurrido un error.

Tipo de contenido Tipo Descripción
application/json dalleErrorResponse

Examples

Example

Crea imágenes con un prompt.

POST https://{endpoint}/openai/deployments/{deployment-id}/images/generations?api-version=2024-10-21

{
 "prompt": "In the style of WordArt, Microsoft Clippy wearing a cowboy hat.",
 "n": 1,
 "style": "natural",
 "quality": "standard"
}

Respuestas: Código de estado: 200

{
  "body": {
    "created": 1698342300,
    "data": [
      {
        "revised_prompt": "A vivid, natural representation of Microsoft Clippy wearing a cowboy hat.",
        "prompt_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          },
          "profanity": {
            "detected": false,
            "filtered": false
          }
        },
        "url": "https://dalletipusw2.blob.core.windows.net/private/images/e5451cc6-b1ad-4747-bd46-b89a3a3b8bc3/generated_00.png?se=2023-10-27T17%3A45%3A09Z&...",
        "content_filter_results": {
          "sexual": {
            "severity": "safe",
            "filtered": false
          },
          "violence": {
            "severity": "safe",
            "filtered": false
          },
          "hate": {
            "severity": "safe",
            "filtered": false
          },
          "self_harm": {
            "severity": "safe",
            "filtered": false
          }
        }
      }
    ]
  }
}

Componentes

Para conocer las definiciones de esquema usadas por chat, finalizaciones, incrustaciones y otras operaciones de texto, consulte la referencia de la API rest de OpenAI Azure. Los siguientes esquemas admiten las operaciones de imagen y audio en esta página.

innerErrorCode

Códigos de error para el objeto de error interno.

Descripción: Códigos de error para el objeto de error interno.

Tipo: cadena

Valor predeterminado:

Nombre de Enum: InnerErrorCode

Valores de enumeración:

Value Descripción
ResponsibleAIPolicyViolation El prompt violó una de las reglas más de filtro de contenido.

dalleErrorResponse

Nombre Tipo Descripción Obligatorio Predeterminado
error dalleError No

dalleError

Nombre Tipo Descripción Obligatorio Predeterminado
param string No
type string No
inner_error dalleInnerError Error interno con detalles adicionales. No

dalleInnerError

Error interno con detalles adicionales.

Nombre Tipo Descripción Obligatorio Predeterminado
código innerErrorCode Códigos de error para el objeto de error interno. No
content_filter_results dalleFilterResults Información sobre la categoría de filtrado de contenido (odio, sexual, violencia, self_harm), si ha sido detectada, así como el nivel de gravedad (escala very_low, baja, media, alta que determina la intensidad y el nivel de riesgo del contenido dañino) y si ha sido filtrado o no. Información sobre contenido de jailbreak y palabrotas, si se ha detectado y si ha sido filtrado o no. Y información sobre la lista de clientes bloqueados, si ha sido filtrada y su identificación. No
mensaje_revisado string El prompt que se usó para generar la imagen, si hubo alguna revisión del prompt. No

contentFilterSeverityResult

Nombre Tipo Descripción Obligatorio Predeterminado
filtered boolean
severity string No

contentFilterDetectedResult

Nombre Tipo Descripción Obligatorio Predeterminado
filtered boolean
detectado boolean No

dalleFilterResults

Información sobre la categoría de filtrado de contenido (odio, sexual, violencia, self_harm), si ha sido detectada, así como el nivel de gravedad (escala very_low, baja, media, alta que determina la intensidad y el nivel de riesgo del contenido dañino) y si ha sido filtrado o no. Información sobre contenido de jailbreak y palabrotas, si se ha detectado y si ha sido filtrado o no. Y información sobre la lista de clientes bloqueados, si ha sido filtrada y su identificación.

Nombre Tipo Descripción Obligatorio Predeterminado
sexual contentFilterSeverityResult No
violencia contentFilterSeverityResult No
odio contentFilterSeverityResult No
self_harm contentFilterSeverityResult No
soece resultadoDetectadoPorElFiltroDeContenido No
jailbreak resultadoDetectadoPorElFiltroDeContenido No

audioResponse

Respuesta de traducción o transcripción cuando response_format era json

Nombre Tipo Descripción Obligatorio Predeterminado
Mensaje de texto string Texto traducido o transcrito.

audioVerboseResponse

Respuesta de traducción o transcripción cuando response_format estaba verbose_json

Nombre Tipo Descripción Obligatorio Predeterminado
Mensaje de texto string Texto traducido o transcrito.
tarea string Tipo de tarea de audio. No
language string Language. No
duración número Duración. No
segmentos array No

audioResponseFormat

Define el formato de la salida.

Descripción: Define el formato de la salida.

Tipo: cadena

Valor predeterminado:

Valores de enumeración:

  • json
  • Mensaje de texto
  • srt
  • verbose_json
  • vtt

imageQuality

La calidad de la imagen que se generará.

Descripción: La calidad de la imagen que se generará.

Tipo: cadena

Valor predeterminado: estándar

Nombre Enum: Quality

Valores de enumeración:

Value Descripción
Estándar La calidad estándar crea imágenes con calidad estándar.
hd La calidad HD crea imágenes con detalles más finos y mayor consistencia en toda la imagen.

imagesResponseFormat

El formato en el que se devuelven las imágenes generadas.

Descripción: El formato en el que se devuelven las imágenes generadas.

Tipo: cadena

Valor predeterminado: url

Nombre de Enum: ImágenesFormatoRespuesta

Valores de enumeración:

Value Descripción
url La URL que proporciona acceso temporal para descargar las imágenes generadas.
b64_json Las imágenes generadas se devuelven como cadena codificada en base64.

imageSize

El tamaño de las imágenes generadas.

Descripción: El tamaño de las imágenes generadas.

Tipo: cadena

Valor predeterminado: 1024x1024

Nombre de Enum: Tamaño

Valores de enumeración:

Value Descripción
1792x1024 El tamaño deseado de la imagen generada es de 1792x1024 píxeles.
1024x1792 El tamaño deseado de la imagen generada es de 1024x1792 píxeles.
1024x1024 El tamaño deseado de la imagen generada es 1024x1024 píxeles.

imageStyle

El estilo de las imágenes generadas.

Descripción: El estilo de las imágenes generadas.

Tipo: cadena

Valor predeterminado: vívido

Nombre de Enum: Style

Valores de enumeración:

Value Descripción
vívido Vivid crea imágenes hiperrealistas y dramáticas.
natural Natural crea imágenes más naturales y menos hiperrealistas.

generateImagesResponse

Nombre Tipo Descripción Obligatorio Predeterminado
creado entero La marca de tiempo de Unix cuando se creó la operación.
datos array Los datos de resultados de la operación, si tienen éxito

Pasos siguientes

Obtenga información sobre los modelos y la optimización con la API REST. Obtenga más información sobre los modelos underlying que potencian Azure OpenAI.