Modelos de generación de vídeo

Completado

Sugerencia

Consulte la pestaña Texto e imágenes para obtener más detalles.

Además de las imágenes estáticas, cada vez más esperamos consumir contenido visual como vídeo.

Uso de modelos de generación de vídeo de Foundry

Microsoft Foundry incluye modelos para la generación de vídeos, que puede usar para crear contenido de vídeo original.

Captura de pantalla del catálogo de modelos de Foundry con tres modelos de generación de vídeo mostrados.

Los modelos de generación de vídeo en Foundry incluyen:

  • Sora 1: Sora es el primer modelo de texto a vídeo de OpenAI que está disponible en Microsoft Foundry. Genera clips de vídeo cortos a partir de mensajes de texto y también puede usar imágenes como entrada para guiar la creación de vídeos. Sora 1 admite varias resoluciones y duraciones y se expone a través del servicio Azure OpenAI y en el Foundry Video Playground para la experimentación.

Usos típicos:

  • Vídeos conceptuales y guiones gráficos
  • Animaciones cortas de descripciones de texto
  • Creación de prototipos visuales para flujos de trabajo creativos

Sora 2 (versión preliminar pública):Sora 2 es el modelo de generación de vídeo de última generación en Foundry y representa una actualización significativa de Sora 1. Admite varias modalidades, entre las que se incluyen: Texto → vídeo, Imagen → vídeo, Video → video (remix) . Sora 2 también presenta funciones de generación de audio, realismo mejorado y remezclado que permiten modificaciones dirigidas en lugar de regenerar un vídeo completo. Está disponible a través de la API de Azure OpenAI v1 y el Foundry Video Playground, con salvaguardas integradas de inteligencia artificial responsable.

Usos típicos:

  • Vídeos promocionales y de marketing
  • Vistas previas y tráileres de conceptos cinematográficos
  • Contenido multimedia educativo e inmersivo

Nota:

Importantemente, los modelos de Sora son actualmente los únicos modelos nativos de generación de vídeo proporcionados directamente a través de Foundry. Otros modelos foundry pueden ser multimodales (texto, imagen, audio), pero no generan salida de vídeo. Sora 1 y Sora 2 incluyen restricciones de inteligencia artificial responsable, como límites en personas reales, caracteres protegidos por derechos de autor y determinados tipos de contenido.

Generación de vídeos en el área de juegos de Foundry

Una vez que implemente un modelo de generación de vídeo adecuado, puede probarlo en el área de juegos del portal de Foundry. En el área de juegos, también puede especificar parámetros como dimensiones de vídeo y duración.

Captura de pantalla del modelo de Sora en Foundry Playground con parámetros e indicaciones.

Las indicaciones al modelo de generación de vídeo deben incluir una descripción del contenido en el vídeo deseado. Después de unos minutos, el modelo genera un vídeo.

Puede echar un vistazo al código de ejemplo en el área de juegos.

Captura de pantalla del modelo de Sora en foundry Playground con código de ejemplo.

El código de ejemplo usa la interfaz REST para la generación de vídeos.

Uso de la interfaz REST para la generación de vídeos

Puede usar la interfaz REST de Foundry para solicitar un trabajo de generación de vídeo y recuperar el MP4 terminado mediante programación. La generación de vídeo mediante programación permite automatizar el proceso de generación de vídeos.

Nota:

Una API REST (API de transferencia de estado representacional) es una interfaz web que permite a los programas comunicarse mediante HTTP. Un SDK es un kit de herramientas fácil de usar para desarrolladores, basado en esa interfaz. Siempre puede trabajar con la API REST subyacente, especialmente si un SDK en el lenguaje de programación con el que está familiarizado no existe. Puede usar curl (short for Client URL) para llamar a la API REST o comunicarse con ella. Curl es una herramienta de línea de comandos que se usa para enviar y recibir datos a través de Internet. En su núcleo, curl: realiza solicitudes HTTP (y otros protocolos), envía datos a un servidor y recibe e imprime la respuesta del servidor.

La generación de vídeo consume muchos recursos y normalmente se ejecuta como un trabajo asincrónico.

Asincrónico implica que usted:

  1. Crear un trabajo
  2. Consultar el estado del trabajo
  3. Descargue el vídeo una vez completado el trabajo.

Los tiempos de generación de vídeo suelen ser de 1 a 5 minutos, en función de la configuración. Para ejecutar un trabajo asincrónico mediante la interfaz REST de Foundry, necesita lo siguiente:

  • Un recurso de Azure OpenAI/Foundry en una región admitida y una implementación de Sora (se implementa Sora desde los modelos y puntos de conexión de Foundry).
  • Un método de autorización: clave de API o identificador de Microsoft Entra

Echemos un vistazo al uso de la API de Azure OpenAI v1 con el modelo sora 2.

La API de Sora 2 proporciona puntos de conexión distintos para:

  • Iniciar un trabajo de render
  • Sondeo del estado del trabajo
  • Descarga del vídeo

1. Creación de un trabajo de vídeo

En el ejemplo, el script inicia un trabajo de renderizado asincrónico y devuelve una respuesta que incluye un identificador de vídeo para sondear.

Nota:

Bash es un shell de línea de comandos y un lenguaje de scripting. Curl es un comando que se ejecuta dentro de Bash.

curl -X POST "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos" \
  -H "Content-Type: application/json" \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  -d '{
    "model": "sora-2",
    "prompt": "A cinematic close-up of raindrops sliding down a neon-lit window at night.",
    "size": "1280x720",
    "seconds": "8"
  }'

2. Consultar el estado del trabajo hasta que se complete

En el ejemplo, el script sondea el endpoint hasta que el trabajo alcanza completed (o failed).

curl -X GET "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos/{video_id}" \
  -H "api-key: $AZURE_OPENAI_API_KEY"

3. Descargar el vídeo completado

El vídeo solo se descarga después de que el estado sea completed.

curl -L "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/videos/{video_id}/content?variant=video" \
  -H "api-key: $AZURE_OPENAI_API_KEY" \
  --output output.mp4

Los modelos de vídeo mejoran todo el tiempo y Microsoft Foundry facilita su integración en soluciones creativas. A continuación, pruebe modelos habilitados para visión, generación de imágenes y generación de vídeo en Foundry usted mismo.