쿼리 비전 모델

중요합니다

베타에서 새로운 Unity AI 게이트웨이 환경을 사용할 수 있습니다. 새로운 Unity AI 게이트웨이는 향상된 기능을 사용하여 LLM 엔드포인트 및 코딩 에이전트를 관리하기 위한 엔터프라이즈 제어 평면입니다. Unity AI 게이트웨이를 사용한 AI 거버넌스를 참조하세요.

이 문서에서는 비전 작업에 최적화되고 Unity AI Gateway에서 제공하는 기본 모델에 대한 쿼리 요청을 작성하는 방법을 알아봅니다.

Tip

지니 코드 (에이전트 모드)는 이 작업을 수행할 수 있습니다. 다음 예제 프롬프트를 사용해 보세요.

Query the databricks-claude-sonnet-4-5 model using the OpenAI client, sending a base64-encoded image from a URL alongside a text question, and print the response.

모델 제공은 다양한 기본 모델을 사용하여 이미지를 이해하고 분석하는 통합 API를 제공하여 강력한 멀티모달 기능을 잠금 해제합니다. 이 기능은 기본 모델 API의 일부로 Databricks 호스팅 모델을 선택하고 외부 모델을 제공하는 엔드포인트를 통해 사용할 수 있습니다.

요구 사항

요구 사항을 참조하세요.
선택한 쿼리 클라이언트 옵션에 따라 클러스터에 적절한 패키지를 설치합니다.

쿼리 예제

메모

다음 예제는 Unity AI 게이트웨이 및 모델 서비스를 기반으로 합니다. 모델 서비스 대신 엔드포인트를 제공하는 모델을 사용하는 경우 모델 서비스 이름을 엔드포인트 이름으로 바꿉니다. 사용 가능한 파운데이션 모델과 해당 모델 서비스 및 엔드포인트 이름 목록은 Foundation Model API에서 사용할 수 있는 Databricks 호스팅 파운데이션 모델을 참조하세요.

OpenAI 클라이언트

OpenAI 클라이언트를 사용하려면 모델 서비스 이름을 입력으로 model 지정합니다.


from openai import OpenAI
import base64
import requests

# Get the workspace API URL and token from the notebook context
API_ROOT = dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiUrl().get()
API_TOKEN = dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiToken().get()

client = OpenAI(
    api_key=API_TOKEN,
    base_url=f"{API_ROOT}/ai-gateway/mlflow/v1",
)

# Download and encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
resp = requests.get(image_url)
resp.raise_for_status()
image_data = base64.b64encode(resp.content).decode("utf-8")

# OpenAI request
completion = client.chat.completions.create(
    model="system.ai.claude-sonnet-4-5",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "what's in this image?"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
                },
            ],
        }
    ],
)

print(completion.choices[0].message.content)

채팅 완료 API는 여러 이미지 입력을 지원하므로 모델은 각 이미지를 분석하고 모든 입력의 정보를 합성하여 프롬프트에 대한 응답을 생성할 수 있습니다.


from openai import OpenAI
import base64
import requests

# Get the workspace API URL and token from the notebook context
API_ROOT = dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiUrl().get()
API_TOKEN = dbutils.notebook.entry_point.getDbutils().notebook().getContext().apiToken().get()

client = OpenAI(
    api_key=API_TOKEN,
    base_url=f"{API_ROOT}/ai-gateway/mlflow/v1",
)

# Download and encode multiple images
image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
resp1 = requests.get(image1_url)
resp1.raise_for_status()
image1_data = base64.b64encode(resp1.content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
resp2 = requests.get(image2_url)
resp2.raise_for_status()
image2_data = base64.b64encode(resp2.content).decode("utf-8")

# OpenAI request
completion = client.chat.completions.create(
    model="system.ai.claude-sonnet-4-5",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "What are in these images? Is there any difference between them?"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
                },
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
                },
            ],
        }
    ],
)

print(completion.choices[0].message.content)

SQL

중요합니다

다음 예제에서는 기본 제공 SQL 함수 ai_query를 사용합니다. 이 함수는 공개 미리 보기 로 제공되며 정의가 변경될 수 있습니다.

다음은 AI 함수 ai_query()를 사용하는 다중 모드 입력에 대해 Databricks Foundation Model API에서 지원하는 기본 모델을 쿼리합니다.


> SELECT *, ai_query(
  'system.ai.llama-4-maverick',
 'what is this image about?', files => content)
as output FROM READ_FILES("/Volumes/main/multimodal/unstructured/image.jpeg");

지원되는 모델

Foundation 모델 유형에서 지원되는 비전 모델을 참조하세요.

입력 이미지 요구 사항

모델(들)	지원되는 형식	요청당 여러 이미지	이미지 크기 제한 사항	이미지 크기 조정 권장 사항	이미지 품질 고려 사항
`databricks-gpt-5`	`JPEG` `PNG` `WebP` `GIF` (비애니메이션 `GIF`)	요청당 최대 500개의 개별 이미지 입력	파일 크기 제한: 요청당 최대 10MB의 총 페이로드 크기	N/A	워터마크 또는 로고 없음 사람이 이해할 수 있을 만큼 충분히 명확합니다.
`databricks-gpt-5-mini`	`JPEG` `PNG` `WebP` `GIF` (비애니메이션 `GIF`)	요청당 최대 500개의 개별 이미지 입력	파일 크기 제한: 요청당 최대 10MB의 총 페이로드 크기	N/A	워터마크 또는 로고 없음 사람이 이해할 수 있을 만큼 충분히 명확합니다.
`databricks-gpt-5-nano`	`JPEG` `PNG` `WebP` `GIF` (비애니메이션 `GIF`)	요청당 최대 500개의 개별 이미지 입력	파일 크기 제한: 요청당 최대 10MB의 총 페이로드 크기	N/A	워터마크 또는 로고 없음 사람이 이해할 수 있을 만큼 충분히 명확합니다.
`databricks-gemma-3-12b`	`JPEG` `PNG` `WebP` `GIF`	API 요청에 대해 최대 5개의 이미지 제공된 모든 이미지는 요청에서 처리됩니다.	파일 크기 제한: API 요청당 모든 이미지에서 총 10MB	N/A	N/A
`databricks-llama-4-maverick`	`JPEG` `PNG` `WebP` `GIF`	API 요청에 대해 최대 5개의 이미지 제공된 모든 이미지는 요청에서 처리됩니다.	파일 크기 제한: API 요청당 모든 이미지에서 총 10MB	N/A	N/A
`databricks-claude-sonnet-5` `databricks-claude-sonnet-4-6` `databricks-claude-sonnet-4-5` `databricks-claude-haiku-4-5` `databricks-claude-opus-4-8` `databricks-claude-opus-4-7` `databricks-claude-opus-4-6` `databricks-claude-opus-4-5` `databricks-claude-opus-4-1` `databricks-claude-sonnet-4`	`JPEG` `PNG` `GIF` `WebP`	Claude.ai 최대 20개 이미지 API 요청에 대한 최대 100개의 이미지 제공된 모든 이미지는 요청에서 처리되므로 비교하거나 대조하는 데 유용합니다.	8000x8000px보다 큰 이미지는 거부됩니다. 하나의 API 요청에서 20개 이상의 이미지가 제출되는 경우 이미지당 허용되는 최대 크기 는 2000 x 2000px입니다.	최적의 성능을 위해 너무 큰 경우 업로드하기 전에 이미지 크기를 조정합니다. 이미지의 긴 가장자리가 1568픽셀을 초과 하거나 크기가 최대 1,600개의 토큰을 초과하면 가로 세로 비율을 유지하면서 자동으로 축소됩니다 . 매우 작은 이미지 ( 에지에서 200픽셀 미만)는 성능을 저하시킬 수 있습니다. 대기 시간을 줄이려면 이미지를 1.15메가픽셀 및 최대 1568 픽셀 내에 두 차원으로 유지합니다.	선명도: 흐릿하거나 픽셀화된 이미지를 방지합니다. 이미지의 텍스트: 텍스트가 읽을 수 있고 너무 작지 않은지 확인합니다. 텍스트를 확대하기 위해 주요 시각적 컨텍스트를 자르지 않도록 합니다.

이미지 토큰 변환

이 섹션은 Foundation Model API에만 적용됩니다. 외부 모델의 경우 공급자의 설명서를 참조하세요.

기본 모델에 대한 요청의 각 이미지는 토큰 사용량에 추가됩니다. 사용 중인 토큰 사용량 및 모델을 기반으로 이미지 가격 책정을 예측하려면 가격 계산기를 참조하세요.

이미지 이해의 제한 사항

이 섹션은 Foundation Model API에만 적용됩니다. 외부 모델의 경우 공급자의 설명서를 참조하세요.

다음은 지원되는 Databricks 호스팅 기반 모델에 대한 이미지 이해 제한 사항입니다.

Model 제한점

Model	제한점
지원되는 클로드 모델은 다음과 같습니다. `databricks-claude-sonnet-5` `databricks-claude-sonnet-4-6` `databricks-claude-sonnet-4-5` `databricks-claude-opus-4-1` `databricks-claude-sonnet-4`	Databricks의 Claude 모델에 대한 제한은 다음과 같습니다. 사람이 감독하지 않고 완벽한 정밀도 또는 민감한 분석이 필요한 작업에는 Claude를 사용하지 마십시오. 사람 식별: 이미지에서 사람을 식별하거나 이름을 지정할 수 없습니다. 정확도: 저품질, 회전 또는 매우 작은 이미지(200px)를 잘못 해석할 수 있습니다. 공간 추론: 아날로그 시계나 체스 위치를 읽는 것과 같은 정확한 레이아웃으로 어려움을 겪습니다. 계산: 대략적인 개수를 제공하지만 많은 작은 개체에 대해 정확하지 않을 수 있습니다. AI에서 생성된 이미지: 가상 또는 가짜 이미지를 안정적으로 검색할 수 없습니다. 부적절한 콘텐츠: 명시적 또는 정책 위반 이미지를 차단합니다. 의료: 복잡한 의료 검사(예: CD 및 MRI)에 적합하지 않습니다. 진단 도구가 아닙니다.

지원되는 클로드 모델은 다음과 같습니다.

databricks-claude-sonnet-5
databricks-claude-sonnet-4-6
databricks-claude-sonnet-4-5
databricks-claude-opus-4-1
databricks-claude-sonnet-4

Databricks의 Claude 모델에 대한 제한은 다음과 같습니다.

사람이 감독하지 않고 완벽한 정밀도 또는 민감한 분석이 필요한 작업에는 Claude를 사용하지 마십시오.
사람 식별: 이미지에서 사람을 식별하거나 이름을 지정할 수 없습니다.
정확도: 저품질, 회전 또는 매우 작은 이미지(200px)를 잘못 해석할 수 있습니다.
공간 추론: 아날로그 시계나 체스 위치를 읽는 것과 같은 정확한 레이아웃으로 어려움을 겪습니다.
계산: 대략적인 개수를 제공하지만 많은 작은 개체에 대해 정확하지 않을 수 있습니다.
AI에서 생성된 이미지: 가상 또는 가짜 이미지를 안정적으로 검색할 수 없습니다.
부적절한 콘텐츠: 명시적 또는 정책 위반 이미지를 차단합니다.
의료: 복잡한 의료 검사(예: CD 및 MRI)에 적합하지 않습니다. 진단 도구가 아닙니다.

추가 리소스

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-06-30