이미지 분석을 위한 다중 모델

완료됨

비고

자세한 내용은 텍스트 및 이미지 탭을 참조하세요.

점점 더 새로운 AI 모델은 멀티모달입니다. 즉, 이미지 및 텍스트를 포함하여 여러 종류의 입력 데이터를 지원합니다. 다중 모달 모델은 텍스트, 이미지, 오디오 또는 비디오와 같은 둘 이상의 데이터 형식을 동시에 이해하고 사용할 수 있는 AI 모델입니다. 예를 들어 멀티모달 모델은 자연어로 이미지를 설명하거나 사진에 대한 질문에 대답할 수 있습니다.

멀티모달 모델은 일반적으로 다음의 일부로 사용됩니다.

  • 이미지 이해가 사용자 워크플로를 향상시키는 AI 애플리케이션
  • AI 에이전트는 시각적 입력이 에이전트의 더 나은 의사 결정을 내리는 데 도움을 줍니다.

예를 들면 다음과 같습니다.

  • 업로드된 문서 및 스크린샷을 검토하는 에이전트
  • 고객이 제출한 사진을 분석하는 지원 앱
  • 다이어그램 또는 차트를 일반 언어로 설명하는 학습 도구

멀티모달 모델은 텍스트와 이미지를 모두 허용하므로 별도의 비전 파이프라인의 필요성을 줄이고 엔드투엔드 지능형 환경을 보다 쉽게 빌드할 수 있습니다.

모델이 시각적 이해를 자연어 응답과 결합하는 기능을 비전 지원 GPT 모델 또는 비전과 GPT라고 합니다. 비전 지원 모델은 유연하고 범용 시각적 추론을 위해 설계되었습니다. 시각적 입력을 분석하고 자연어로 응답할 수 있으므로 심층적인 컴퓨터 비전 전문 지식 없이도 지능형 애플리케이션을 쉽게 빌드할 수 있습니다.

Microsoft Foundry의 다중 모달 모델

Microsoft Foundry에는 이미지 기반 입력을 허용하는 많은 모델이 포함되어 있어 지능형 비전 기반 솔루션을 만들 수 있습니다. Microsoft Foundry의 멀티모달 모델을 사용하면 애플리케이션과 에이전트가 이미지 및 시각적 콘텐츠에 대한 이해, 분석 및 이유를 파악할 수 있습니다.

예를 들어 Foundry의 비전 지원 GPT 모델은 다음을 수행할 수 있습니다.

  • 자연어로 이미지의 내용 설명
  • 이미지의 개체, 텍스트 또는 장면에 대한 질문에 답변
  • 차트, 스크린샷, 문서 또는 사진에서 의미 추출
  • 단일 프롬프트에서 텍스트 지침과 이미지 이해 결합

Foundry의 모델 카탈로그에는 다음을 비롯한 여러 멀티모달 모델이 포함되어 있습니다.

  • GPT-4.1/ GPT-4.1-mini/ GPT-4.1-nano: 이러한 범용 다중 모달 GPT 모델은 텍스트와 이미지를 함께 처리할 수 있습니다. 일반적으로 이미지 설명 및 시각적 질문 답변, 문서 및 스크린샷 분석, 차트 및 다이어그램 해석에 사용됩니다.

  • GPT-5 시리즈(예: GPT-5.1, GPT-5.2): Foundry에서 사용할 수 있는 GPT-5 제품군에는 엔터프라이즈 및 에이전트 시나리오용으로 설계된 고급 멀티모달 모델이 포함되어 있습니다. 이러한 모델은 여러 모달 입력(텍스트 및 이미지 포함), 구조화된 출력 및 도구 사용, 형식 간 대규모 컨텍스트 추론을 지원합니다. GPT-5 시리즈 모델은 일반적으로 프로덕션 수준의 AI 에이전트 및 복잡한 멀티모달 애플리케이션에서 사용됩니다.

Foundry는 또한 Anthropic과 같은 공급자 및 텍스트 및 이미지 이해를 지원하는 다른 공급자의 모델을 포함하여 모델 카탈로그에 파트너가 제공하는 멀티모달 모델을 호스팅합니다.

Foundry 놀이터의 이미지 분석

비고

Foundry 포털에는 클래식 UI(사용자 인터페이스) 및 사용자 인터페이스가 있습니다.

새 Microsoft Foundry 포털에서 모델 플레이그라운드를 사용하여 배포된 모델과 채팅할 수 있습니다. 비전 지원 모델을 선택하고, 이미지를 업로드하고, 대화형으로 프롬프트를 테스트하여 모델이 시각적 정보를 해석하는 방법을 이해할 수 있습니다.

gpt-4.1 미니 모델이 배포되고 사용자가 동물의 이미지를 업로드하는 Foundry Playground의 스크린샷.

예를 들어 이미지 파일을 첨부하고 멀티모달 모델(예: gpt-4.1 mini)을 가져와서 분석하고 설명할 수 있습니다.

모델에 이미지의 내용을 설명하도록 요청하는 프롬프트와 설명이 포함된 응답이 있는 Foundry Playground의 스크린샷.

유효성이 검사되면 API를 사용하여 프로그래밍 방식으로 동일한 기능에 액세스할 수 있으므로 애플리케이션 코드의 텍스트 프롬프트와 함께 이미지를 제출할 수 있습니다.

이미지 분석에 Azure OpenAI API 사용

애플리케이션을 개발하려면 Foundry 플레이그라운드에서 코드로 이동해야 합니다. 코드 편집기에서 Foundry의 OpenAI 응답 API 를 사용하여 애플리케이션 코드를 작성할 수 있습니다. OpenAI 응답 API는 에이전트 앱용으로 설계되었으며 네이티브 다중 모달 입력(이미지 포함)을 지원합니다.

개요:

  • 단일 요청에는 텍스트 입력과 이미지 입력이 함께 포함될 수 있습니다.
  • 이미지를 URL 또는 base64로 인코딩된 이미지 데이터로 제공할 수 있습니다.
  • 모델은 두 입력을 동시에 처리하여 응답을 생성합니다.

개념적으로 프롬프트 구조는 다음과 같습니다.

  • 텍스트 명령(예: 이 이미지에 표시되는 개체는 무엇인가요?)
  • 동일한 요청에 연결된 하나 이상의 이미지 입력

이 접근 방식을 통해 개발자는 사용자가 이미지를 업로드하고 이에 대해 실시간으로 질문하는 애플리케이션을 빌드할 수 있습니다.

Azure OpenAI Python SDK 사용

OpenAI API와 함께 Microsoft Foundry 리소스를 사용하여 비전 지원 모델 배포와 함께 응답 API를 사용하여 프롬프트에서 이미지 보내기 및 텍스트 응답 가져오기를 포함하여 이미지 분석을 수행할 수 있습니다.

Python SDK는 다음을 사용하여 Visual Studio Code 터미널 에 설치할 수 있습니다.

pip install openai

코드 편집기에서 애플리케이션 코드를 포함하는 하나의 Python 파일을 만들 수 있습니다. 주요하게는 Foundry 리소스엔드포인트, 그리고 배포한 모델의 이름이 필요합니다.

비고

Foundry에서 모델을 배포할 때 기본 또는원래 이름과 원래 배포 이름을 지정합니다. Foundry는 배포된 모델(예: 비전이 있는 GPT 클래스 모델)을 호스트하고 엔드포인트를 제공합니다.

코드 예제에서는 클라이언트를 만들고, 엔드포인트를 가리키고, 모델 배포 이름(모델에 지정한 이름) MODEL_NAME을 전달합니다.

import os
from openai import OpenAI

# Environment variables you set locally or in your app service:
FOUNDRY_KEY = "... your key ..."
ENDPOINT = "https://YOUR-RESOURCE-NAME.openai.azure.com/openai/v1/"
MODEL_NAME = "your-model-deployment-name"  # e.g., "gpt-4.1-mini" deployed as "my-vision-deploy"

client = OpenAI(
    api_key=os.getenv("FOUNDRY_KEY"),
    base_url=os.getenv("ENDPOINT"),
)

image_url = ""

response = client.responses.create(
    model=os.getenv("MODEL_NAME"),  # your deployment name 
    input=[
        {
            "role": "user",
            "content": [
                {"type": "input_text", "text": "What is in this image? Provide 3 bullet points."},
                {"type": "input_image", "image_url": image_url}
            ],
        }
    ],
)

print(response.output_text)

클라이언트 앱 예제

비전 지원 모델을 사용하여 OpenAI Python SDK를 사용하여 이미지를 분석하는 사용자 지정 애플리케이션을 빌드할 수 있습니다. 예를 들어 Safari에서 촬영한 동물을 식별할 수 있는 앱을 빌드한다고 가정합니다. 사진을 업로드하고 코드 편집기에서 Python 파일을 만들 수 있습니다.

이미지 분석에 사용되는 이미지의 스크린샷.

그런 다음 OpenAI API를 사용하여 Foundry에서 모델의 엔드포인트에 연결하는 애플리케이션 코드를 작성할 수 있습니다.

이미지 분석을 위한 애플리케이션 코드가 포함된 Python 파일이 있는 Visual Studio Code의 스크린샷

애플리케이션 코드는 이미지 데이터를 로드하고 사용자로부터 자연어 프롬프트를 가져와야 합니다. 모델에 입력을 제출하려면 이미지와 텍스트 데이터를 모두 포함하는 여러 부분으로 구성된 메시지를 만들어야 합니다. 모델은 프롬프트의 텍스트와 이미지를 기반으로 적절한 출력으로 응답할 수 있습니다.

이미지 분석 결과가 포함된 Visual Studio Code의 스크린샷

다음으로, 이미지 생성을 위해 Foundry 모델 및 Azure OpenAI SDK를 사용하는 방법을 알아봅니다.