Modelos de geração de imagem
Observação
Consulte a guia Texto e imagens para obter mais detalhes!
Modelos com capacidades visuais frequentemente associam a informação visual de uma imagem ao texto correspondente apropriado. Alguns modelos são concebidos para realizar este processo ao contrário, gerando imagens que correspondem a descrições em texto.
Utilização de modelos de geração de imagens da Foundry
O Microsoft Foundry inclui modelos que suportam inferência texto para imagem, que pode usar para gerar resultados visuais.
Para a maioria dos novos projetos, a Microsoft recomenda começar pela família GPT-Image-1, especialmente o GPT-Image-1.5, devido à sua melhor qualidade, suporte de edição e prontidão empresarial.
Exemplos comuns de modelos de geração de imagens no Foundry incluem:
GPT-Image-1.5: O GPT-Image-1.5 é o modelo de geração de imagens mais recente e avançado disponível no Microsoft Foundry. Foi concebido para criação e edição de imagens de alta fidelidade, de nível empresarial, com forte alinhamento dos prompts e maior consistência entre iterações. O modelo suporta texto para imagem, imagem para imagem e edição precisa de imagens, tornando-o ideal para fluxos de trabalho de branding, marketing e design onde a precisão visual é importante.
GPT-Image-1: O GPT-Image-1 é um modelo de geração de imagem poderoso e de uso geral que se baseia nas capacidades de modelos DALL-E anteriores. Suporta geração texto para imagem, variações de imagem e edição precisa de imagens. É frequentemente usado para aplicações criativas, prototipagem e geração de conteúdos visuais. O GPT-Image-1 é amplamente suportado em ferramentas e APIs Foundry, incluindo a API Responses e as ferramentas de agentes.
GPT-Image-1-Mini: GPT-Image-1-Mini é uma versão mais leve e económica do GPT-Image-1. Suporta as mesmas tarefas principais de geração de imagem, mas está otimizado para cenários onde menor latência ou menor custo são mais importantes do que a máxima fidelidade visual. Este modelo é uma boa escolha para experimentação, ferramentas internas ou geração de imagens de alto volume.
Todos estes modelos de geração de imagem podem ser:
- Implementado num recurso Foundry (Azure OpenAI)
- Testado no Parque Infantil da Fundição
- Acedido programaticamente através da API OpenAI Responses ou APIs de geração de imagens
Observação
Também pode aceder a modelos de geração de imagens de terceiros no Foundry. Por exemplo, o FLUX é uma família de modelos de geração de imagens de código aberto criados pela Black Forest Labs. São concebidos para produzir imagens de alta qualidade, fotorrealistas e estilisticamente flexíveis a partir de prompts de texto.
Geração de imagens no parque infantil da fundição
Pode implementar um modelo com capacidades de visão e testá-lo no playground do portal Foundry. Para testar o modelo, podes descrever a imagem que queres criar. E passados alguns minutos, é gerada uma imagem que corresponde à sua descrição.
Utilização do SDK Python OpenAI para geração de imagens
Pode escrever código para construir uma aplicação que utilize um modelo de geração de imagens usando a classe de imagens da API do Azure OpenAI. A classe de imagens OpenAI no SDK Python OpenAI permite-lhe gerar novas imagens e editar imagens existentes. Pode usar o SDK OpenAI Python chamando o endpoint da API OpenAI Images através de uma interface Python.
A capacidade de gerar imagens originais de forma dinâmica a partir de descrições pode ser imensamente valiosa em cenários que incluem media, publicação e criação de conteúdos.
Para gerar imagens com o SDK Python da OpenAI, precisa de:
- Um recurso da Foundry
- Um modelo com capacidade de visão implementado (o nome de implementação é o que se passa por
MODEL_NAME) - Autenticação via chave API ou Microsoft Entra ID
- Chamadas de API de Respostas OpenAI que incluem entrada de imagem (URL ou URL de dados base64)
Observação
Base64 refere-se a ficheiros como imagens binárias (bytes brutos). JSON e URLs são apenas de texto. A codificação Base64 converte dados binários em texto ASCII seguro, permitindo que ficheiros binários sejam incorporados em JSON ou URLs.
Por exemplo, considere o seguinte código Python:
import os
import base64
from openai import OpenAI
# Required environment variables (example names)
FOUNDRY_KEY="..."
ENDPOINT="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME="your-gpt-image-deployment-name" # e.g., "gpt-image-1"
client = OpenAI(
api_key=os.environ["FOUNDRY_KEY"],
base_url=os.environ["ENDPOINT"],
)
prompt = "A modern flat illustration of a robot holding a potted plant, clean vector style, pastel colors."
response = client.responses.create(
model=os.environ["MODEL_NAME"], # your deployment name in Foundry
input=prompt,
tools=[{"type": "image_generation"}],
)
image_base64 = next(
item.result for item in response.output
if item.type == "image_generation_call"
)
with open("foundry_generated.png", "wb") as f:
f.write(base64.b64decode(image_base64))
print("Saved: foundry_generated.png")
De seguida, aprenda a usar modelos de geração de vídeo da Foundry.