Modelos de generación de imágenes

Completado

Sugerencia

Consulte la pestaña Texto e imágenes para obtener más detalles.

Los modelos capacitados para la visión suelen emparejar la información visual de una imagen con el texto correspondiente. Algunos modelos están diseñados para realizar este proceso a la inversa, generando imágenes que corresponden a descripciones de texto.

Uso de modelos de generación de imágenes de Foundry

Microsoft Foundry incluye modelos que admiten la inferencia de texto a imagen, que puede usar para generar resultados visuales.

Para la mayoría de los nuevos proyectos, Microsoft recomienda comenzar con la familia GPT-Image-1, especialmente GPT-Image-1.5, debido a su mejor calidad, soporte de edición y preparación empresarial.

Entre los ejemplos comunes de modelos de generación de imágenes de Foundry se incluyen:

  • GPT-Image-1.5: GPT-Image-1.5 es el modelo de generación de imágenes más reciente y más avanzado disponible en Microsoft Foundry. Está diseñado para la creación y edición de imágenes de alto nivel empresarial, con una alineación rápida y una mayor coherencia entre iteraciones. El modelo admite texto a imagen, imagen a imagen y edición precisa de imágenes, lo que resulta adecuado para los flujos de trabajo de personalización de marca, marketing y diseño en los que la precisión visual es importante.

  • GPT-Image-1: GPT-Image-1 es un modelo eficaz de generación de imágenes de uso general que se basa en las funcionalidades de los modelos de DALL-E anteriores. Admite la generación de texto a imagen, las variaciones de imagen y la edición precisa de imágenes. Normalmente se usa para aplicaciones creativas, creación de prototipos y generación de contenido visual. GPT-Image-1 tiene una amplia compatibilidad con las herramientas y API de Foundry, incluidas las herramientas de agente y las API de respuestas.

  • GPT-Image-1-Mini: GPT-Image-1-Mini es una versión más ligera y rentable de GPT-Image-1. Admite las mismas tareas principales de generación de imágenes, pero está optimizada para escenarios en los que la menor latencia o el costo reducido son más importantes que la fidelidad visual máxima. Este modelo es una buena opción para la experimentación, las herramientas internas o la generación de imágenes de gran volumen.

Todos estos modelos de generación de imágenes pueden ser:

  • Implementado en un recurso Foundry (Azure OpenAI)
  • Probado en foundry Playground
  • Acceso programático usando la API de Respuestas de OpenAI o las APIs de generación de imágenes.

Nota:

También puede acceder a modelos de generación de imágenes de terceros en Foundry. Por ejemplo, FLUX es una familia de modelos de generación de imágenes de código abierto creados por Black Forest Labs. Están diseñados para producir imágenes de alta calidad, fotorealistas y estilísticamente flexibles a partir de mensajes de texto.

Generación de imágenes en el área de juegos de Foundry

Puede implementar un modelo habilitado para la visión artificial y probarlo en el entorno de prueba del portal de Foundry. Para probar el modelo, puede describir la imagen que desea crear. Y después de unos minutos, se genera una imagen que coincida con la descripción.

Captura de pantalla de la generación de imágenes en el área de juegos de Foundry.

Captura de pantalla del ejemplo de código en el área de juegos de Foundry.

Uso del SDK de Python de OpenAI para la generación de imágenes

Puede escribir código para compilar una aplicación que use un modelo de generación de imágenes mediante la clase images de la API de Azure OpenAI. La clase de imágenes de OpenAI en el SDK de Python de OpenAI le permite generar nuevas imágenes y editar imágenes existentes. Puede usar el SDK de Python de OpenAI llamando al punto de conexión de openAI Images API a través de una interfaz de Python.

La capacidad de generar imágenes originales de forma dinámica a partir de descripciones puede ser inmensamente valiosa en escenarios que incluyen medios, publicación y creación de contenido.

Para generar imágenes con el SDK de Python de OpenAI, necesita:

  • Un recurso de Foundry
  • Se implementa un modelo compatible con visión (el nombre de implementación es lo que se pasa como MODEL_NAME)
  • Autenticación mediante la clave de API o el identificador de Microsoft Entra
  • Llamadas API de respuestas de OpenAI que incluyen entrada de imagen (dirección URL o dirección URL de datos base64)

Nota:

Base64 se refiere a archivos como las imágenes que son binarios (bytes sin formato). JSON y direcciones URL son de solo texto. La codificación Base64 convierte los datos binarios en texto ASCII seguro, permite que los archivos binarios se inserten dentro de JSON o direcciones URL.

Por ejemplo, considere el siguiente código de Python:

import os
import base64
from openai import OpenAI

# Required environment variables (example names)
FOUNDRY_KEY="..."
ENDPOINT="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME="your-gpt-image-deployment-name"  # e.g., "gpt-image-1"

client = OpenAI(
    api_key=os.environ["FOUNDRY_KEY"],
    base_url=os.environ["ENDPOINT"],
)

prompt = "A modern flat illustration of a robot holding a potted plant, clean vector style, pastel colors."

response = client.responses.create(
    model=os.environ["MODEL_NAME"],  # your deployment name in Foundry
    input=prompt,
    tools=[{"type": "image_generation"}],
)

image_base64 = next(
    item.result for item in response.output
    if item.type == "image_generation_call"
)

with open("foundry_generated.png", "wb") as f:
    f.write(base64.b64decode(image_base64))

print("Saved: foundry_generated.png")

A continuación, aprenda a usar modelos de generación de vídeos de Foundry.