이미지 생성 모델

완료됨

비고

자세한 내용은 텍스트 및 이미지 탭을 참조하세요.

비전 지원 모델은 종종 이미지의 시각적 정보를 적절한 해당 텍스트와 일치합니다. 일부 모델은 이 프로세스를 반대로 수행하여 텍스트 설명에 해당하는 이미지를 생성하도록 설계되었습니다.

Foundry에서 이미지 생성 모델 사용

Microsoft Foundry에는 시각적 출력을 생성하는 데 사용할 수 있는 텍스트-이미지 추론을 지원하는 모델이 포함되어 있습니다.

대부분의 새 프로젝트의 경우 향상된 품질, 편집 지원 및 엔터프라이즈 준비 상태 때문에 GPT-Image-1 제품군, 특히 GPT-Image-1.5부터 시작하는 것이 좋습니다.

Foundry의 이미지 생성 모델의 일반적인 예는 다음과 같습니다.

  • GPT-Image-1.5: GPT-Image-1.5는 Microsoft Foundry에서 사용할 수 있는 최신 고급 이미지 생성 모델입니다. 높은 충실도의 엔터프라이즈급 이미지 생성 및 편집을 위해 설계되었으며, 반복에서 강력한 프롬프트 맞춤 및 향상된 일관성을 제공합니다. 이 모델은 텍스트-이미지, 이미지-이미지 및 정확한 이미지 편집을 지원하므로 시각적 정확도가 중요한 브랜딩, 마케팅 및 디자인 워크플로에 적합합니다.

  • GPT-Image-1: GPT-Image-1은 이전 DALL-E 모델의 기능을 기반으로 하는 강력한 범용 이미지 생성 모델입니다. 텍스트-이미지 생성, 이미지 변형 및 정확한 이미지 편집을 지원합니다. 크리에이티브 애플리케이션, 프로토타입 생성 및 시각적 콘텐츠 생성에 일반적으로 사용됩니다. GPT-Image-1은 응답 API 및 에이전트 도구를 포함하여 Foundry 도구 및 API에서 널리 지원됩니다.

  • GPT-Image-1-Mini: GPT-Image-1-Mini는 GPT-Image-1의 더 가볍고 비용 효율적인 버전입니다. 동일한 핵심 이미지 생성 작업을 지원하지만 최대 시각적 충실도보다 짧은 대기 시간 또는 비용 절감이 더 중요한 시나리오에 최적화되어 있습니다. 이 모델은 실험, 내부 도구 또는 대용량 이미지 생성에 적합합니다.

이러한 모든 이미지 생성 모델은 다음과 같습니다.

  • Foundry(Azure OpenAI) 리소스에 배포됨
  • 주부 놀이터에서 테스트
  • OpenAI 응답 API 또는 이미지 생성 API를 사용하여 프로그래밍 방식으로 액세스

비고

Foundry에서 타사 이미지 생성 모델에 액세스할 수도 있습니다. 예를 들어 FLUX 는 Black Forest Labs에서 만든 오픈 소스 이미지 생성 모델의 제품군입니다. 텍스트 프롬프트에서 고품질의 광실주의적이고 스타일이 유연한 이미지를 생성하도록 설계되었습니다.

Foundry 놀이터의 이미지 생성

비전 지원 모델을 배포하고 Foundry 포털 실습에서 테스트할 수 있습니다. 모델을 테스트하려면 만들려는 이미지를 설명할 수 있습니다. 그리고 몇 분 후에 설명과 일치하는 이미지가 생성됩니다.

Foundry 플레이그라운드의 이미지 생성 스크린샷

Foundry 플레이그라운드의 코드 예제 스크린샷

이미지 생성을 위해 OpenAI Python SDK 사용

Azure OpenAI API의 이미지 클래스를 사용하여 이미지 생성 모델을 사용하는 애플리케이션을 빌드하는 코드를 작성할 수 있습니다. OpenAI Python SDK의 OpenAI 이미지 클래스를 사용하면 새 이미지를 생성하고 기존 이미지를 편집할 수 있습니다. Python 인터페이스를 통해 OpenAI Images API 엔드포인트를 호출하여 OpenAI Python SDK를 사용할 수 있습니다.

설명에서 원본 이미지를 동적으로 생성하는 기능은 미디어, 게시 및 콘텐츠 생성을 포함하는 시나리오에서 매우 유용할 수 있습니다.

OpenAI Python SDK를 사용하여 이미지를 생성하려면 다음이 필요합니다.

  • Foundry 리소스
  • 비전 기능이 있는 모델이 배포됨(배포 이름은 사용자가 전달하는 MODEL_NAME이름)입니다.
  • API 키 또는 Microsoft Entra ID를 통한 인증
  • 이미지 입력(URL 또는 base64 데이터 URL)을 포함하는 OpenAI 응답 API 호출

비고

Base64 는 이미지가 이진(원시 바이트)인 파일과 같은 파일을 나타냅니다. JSON 및 URL은 텍스트 전용입니다. Base64 인코딩은 이진 데이터를 안전한 ASCII 텍스트로 변환하고 JSON 또는 URL 내에 이진 파일을 포함할 수 있도록 합니다.

예를 들어 다음 Python 코드를 고려합니다.

import os
import base64
from openai import OpenAI

# Required environment variables (example names)
FOUNDRY_KEY="..."
ENDPOINT="https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME="your-gpt-image-deployment-name"  # e.g., "gpt-image-1"

client = OpenAI(
    api_key=os.environ["FOUNDRY_KEY"],
    base_url=os.environ["ENDPOINT"],
)

prompt = "A modern flat illustration of a robot holding a potted plant, clean vector style, pastel colors."

response = client.responses.create(
    model=os.environ["MODEL_NAME"],  # your deployment name in Foundry
    input=prompt,
    tools=[{"type": "image_generation"}],
)

image_base64 = next(
    item.result for item in response.output
    if item.type == "image_generation_call"
)

with open("foundry_generated.png", "wb") as f:
    f.write(base64.b64decode(image_base64))

print("Saved: foundry_generated.png")

다음으로 Foundry에서 비디오 생성 모델을 사용하는 방법을 알아봅니다.