Modelos de geração de imagem

Concluído

Observação

Consulte a guia Texto e imagens para obter mais detalhes!

Modelos com capacidades visuais frequentemente associam a informação visual de uma imagem ao texto correspondente apropriado. Alguns modelos são concebidos para realizar este processo ao contrário, gerando imagens que correspondem a descrições em texto.

Utilização de modelos de geração de imagens da Foundry

O Microsoft Foundry inclui modelos que suportam inferência texto para imagem, que pode usar para gerar resultados visuais.

Para a maioria dos novos projetos, a Microsoft recomenda começar pela família GPT-Image-1, especialmente o GPT-Image-1.5, devido à sua melhor qualidade, suporte de edição e prontidão empresarial.

Exemplos comuns de modelos de geração de imagens no Foundry incluem:

  • GPT-Image-1.5: O GPT-Image-1.5 é o modelo de geração de imagens mais recente e avançado disponível no Microsoft Foundry. Foi concebido para criação e edição de imagens de alta fidelidade, de nível empresarial, com forte alinhamento dos prompts e maior consistência entre iterações. O modelo suporta texto para imagem, imagem para imagem e edição precisa de imagens, tornando-o ideal para fluxos de trabalho de branding, marketing e design onde a precisão visual é importante.

  • GPT-Image-1: O GPT-Image-1 é um modelo de geração de imagem poderoso e de uso geral que se baseia nas capacidades de modelos DALL-E anteriores. Suporta geração texto para imagem, variações de imagem e edição precisa de imagens. É frequentemente usado para aplicações criativas, prototipagem e geração de conteúdos visuais. O GPT-Image-1 é amplamente suportado em ferramentas e APIs Foundry, incluindo a API Responses e as ferramentas de agentes.

  • GPT-Image-1-Mini: GPT-Image-1-Mini é uma versão mais leve e económica do GPT-Image-1. Suporta as mesmas tarefas principais de geração de imagem, mas está otimizado para cenários onde menor latência ou menor custo são mais importantes do que a máxima fidelidade visual. Este modelo é uma boa escolha para experimentação, ferramentas internas ou geração de imagens de alto volume.

Todos estes modelos de geração de imagem podem ser:

  • Implementado num recurso Foundry (Azure OpenAI)
  • Testado no Parque Infantil da Fundição
  • Acedido programaticamente através da API OpenAI Responses ou APIs de geração de imagens

Observação

Também pode aceder a modelos de geração de imagens de terceiros no Foundry. Por exemplo, o FLUX é uma família de modelos de geração de imagens de código aberto criados pela Black Forest Labs. São concebidos para produzir imagens de alta qualidade, fotorrealistas e estilisticamente flexíveis a partir de prompts de texto.

Geração de imagens no parque infantil da fundição

Pode implementar um modelo com capacidades de visão e testá-lo no playground do portal Foundry. Para testar o modelo, podes descrever a imagem que queres criar. E passados alguns minutos, é gerada uma imagem que corresponde à sua descrição.

Captura de ecrã da geração de imagens no parque infantil da Foundry.

Captura de ecrã do exemplo de código no playground da Foundry.

Utilização do SDK Python OpenAI para geração de imagens

Pode escrever código para construir uma aplicação que utilize um modelo de geração de imagens usando a classe de imagens da API do Azure OpenAI. A classe de imagens OpenAI no SDK Python OpenAI permite-lhe gerar novas imagens e editar imagens existentes. Pode usar o SDK OpenAI Python chamando o endpoint da API OpenAI Images através de uma interface Python.

A capacidade de gerar imagens originais de forma dinâmica a partir de descrições pode ser imensamente valiosa em cenários que incluem media, publicação e criação de conteúdos.

Para gerar imagens com o SDK Python da OpenAI, precisa de:

  • Um recurso da Foundry
  • Um modelo com capacidade de visão implementado (o nome de implementação é o que se passa por MODEL_NAME)
  • Autenticação via chave API ou Microsoft Entra ID
  • Chamadas de API de Respostas OpenAI que incluem entrada de imagem (URL ou URL de dados base64)

Observação

Base64 refere-se a ficheiros como imagens binárias (bytes brutos). JSON e URLs são apenas de texto. A codificação Base64 converte dados binários em texto ASCII seguro, permitindo que ficheiros binários sejam incorporados em JSON ou URLs.

Por exemplo, considere o seguinte código Python:

import os
import base64
from openai import OpenAI

# Required environment variables (example names)
FOUNDRY_KEY="..."
ENDPOINT="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME="your-gpt-image-deployment-name"  # e.g., "gpt-image-1"

client = OpenAI(
    api_key=os.environ["FOUNDRY_KEY"],
    base_url=os.environ["ENDPOINT"],
)

prompt = "A modern flat illustration of a robot holding a potted plant, clean vector style, pastel colors."

response = client.responses.create(
    model=os.environ["MODEL_NAME"],  # your deployment name in Foundry
    input=prompt,
    tools=[{"type": "image_generation"}],
)

image_base64 = next(
    item.result for item in response.output
    if item.type == "image_generation_call"
)

with open("foundry_generated.png", "wb") as f:
    f.write(base64.b64decode(image_base64))

print("Saved: foundry_generated.png")

De seguida, aprenda a usar modelos de geração de vídeo da Foundry.