비고
Foundry의 관리 컴퓨팅은 현재 미리 보기로 제공됩니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
관리형 컴퓨팅(미리 보기)은 가상 머신을 프로비전하거나, Kubernetes 클러스터를 운영하거나, 컨테이너 이미지를 빌드하거나, 모델 제공 런타임을 소유할 필요 없이 전용 GPU 용량에서 오픈 소스 모델을 호스트하는 Microsoft Foundry의 배포 유형입니다. Microsoft GPU 토폴로지, 런타임, 컨테이너 이미지 및 보안 패치를 소유합니다. 워크로드에 맞는 모델, 배포 템플릿, 가속기 패밀리 및 크기 조정 동작을 선택합니다.
관리형 컴퓨팅은 Foundry의 다른 배포 유형과 동일한 Foundry 리소스, 프로젝트, 엔드포인트, 인증, 네트워크 구성, SDK, 관찰 가능성 및 청구 화면을 사용합니다. 관리형 컴퓨팅을 사용하여 모델을 배포한 후 애플리케이션 코드는 다른 Foundry 모델과 동일합니다. 배포 이름만 변경됩니다.
이 문서에서는 Foundry의 관리형 컴퓨팅 배포 유형, 사용하는 개념(모델 인스턴스, 배포 템플릿, 가속기 패밀리, 런타임), 배포할 수 있는 카탈로그, 유추 엔드포인트, 크기 조정, 청구 및 할당량, 액세스 제어 및 현재 제한 사항에 대해 설명합니다. 단계별 배포 지침은 관리형 컴퓨팅을 사용하여 오픈 소스 모델 배포를 참조하세요.
Foundry에서 관리형 컴퓨팅이 적합한 위치
Foundry는 세 가지 배포 유형을 제공합니다. 관리형 컴퓨팅은 전용 GPU 용량의 오픈 소스 모델에 사용할 배포 유형입니다.
| 배포 유형 | 제공하는 것 | 결제 | 적합한 대상 |
|---|---|---|---|
| 표준 토큰당 과금 | Azure에서 판매하는 파운드리 모델 | 입력 및 출력 토큰당 | 시작하기 위한 가장 낮은 마찰 경로; 용량 계획이 없는 호스트된 모델의 트래픽이 급증합니다. |
| 프로비전된 처리량 | Azure에서 판매하는 Foundry 모델 | 예약된 처리량 단위 | 일관된 대기 시간으로 Azure를 통해 제공되는 일부 Foundry 모델에서 예측 가능하고 지속적인 워크로드 |
| 관리되는 컴퓨팅 | Foundry 카탈로그의 오픈 소스 및 커뮤니티 모델 | 액셀러레이터 패밀리당 시간별 | Foundry 관리 런타임, 프라이빗 네트워킹 및 다른 배포 유형과 동일한 SDK를 사용하여 전용 GPU에서 오픈 소스 모델을 호스팅합니다. |
세 가지 배포 유형 모두 단일 Foundry 엔드포인트, 동일한 인증 패턴(Microsoft Entra ID 및 키), 동일한 SDK, 동일한 관찰 가능성 화면 및 단일 청구서를 공유합니다. 단일 Foundry 프로젝트에서 세 가지 배포 유형을 모두 혼합하고 동일한 클라이언트 코드에서 호출할 수 있습니다.
주요 개념
이 섹션에서는 Foundry에서 관리형 컴퓨팅 배포를 사용하기 전에 이해해야 하는 주요 개념에 대해 설명합니다.
모델 인스턴스
모델 인스턴스는 관리형 컴퓨팅의 배포 단위입니다. 가상 머신 SKU를 선택하거나 노드 크기를 조정하지 않습니다. 대신 모델 용어로 워크로드를 설명하고, Foundry는 아래의 GPU 토폴로지에서 선택합니다. 인스턴스는 선택한 모델 및 배포 템플릿에 따라 하나의 가속기 또는 여러 가속기를 사용할 수 있습니다. 모델 인스턴스 수( capacity 배포 SKU의 값)를 변경하여 배포 크기를 조정합니다.
배포 템플릿
배포 템플릿은 특정 모델을 실행하는 방법을 인코딩하는 명명된 버전 관리 자산입니다. 템플릿 핀:
- 서빙 런타임(예: vLLM 또는 SGLang).
- 인스턴스당 가속기 패밀리 및 개수(예: H100 80GB 또는 A100 80GB 2개)입니다.
- 지원되는 컨텍스트 길이 및 모든 양자화 선택 항목입니다.
- 도구 호출 및 추론 파서, 점수 매기기 경로, 상태 프로브, 요청 동시성 및 모델별 컨텍스트 확장 설정과 같은 런타임별 튜닝
배포를 스크립트할 때 템플릿 ID를 참조하고 Foundry는 나머지를 처리합니다. 카탈로그의 각 모델에는 일반적으로 가속기 제품군, 컨텍스트 길이, 그리고 지연 시간과 처리량 간의 절충을 달리한 여러 템플릿이 함께 제공됩니다. 예를 들어 모델은 qwen3-32b 네 개의 템플릿을 나란히 노출합니다.
| Template | Runtime | 가속기 | 컨텍스트 |
|---|---|---|---|
qwen--qwen3-32b--40k-nvidia-a100 |
vLLM | 1 × A100 80GB | 40 K |
qwen--qwen3-32b--40k-nvidia-h100 |
vLLM | 1× H100 80GB | 40 K |
qwen--qwen3-32b--128k-nvidia-2xa100 |
vLLM | 2× A100 80GB | 128K |
qwen--qwen3-32b--128k-nvidia-2xh100 |
vLLM | H100 80GB × 2개 | 128K |
템플릿을 선택하는 것은 모델 실행 방법을 설정하는 유일한 노브입니다.
액셀러레이터 패밀리
관리형 컴퓨팅 배포는 특정 가상 머신 SKU가 아닌 가속기 제품군을 대상으로 합니다. 지원되는 패밀리는 다음과 같습니다.
- NVIDIA A100 80GB(
A100_80GB) - NVIDIA H100 80GB(
H100_80GB) - AMD MI300X 192GB(
MI_300_192GB)
할당량은 지역당 액셀러레이터 패밀리당 부여됩니다.
모델 런타임
관리형 컴퓨팅은 Microsoft가 빌드, 검사, 서명 및 패치하는 서빙 런타임에서 각 모델을 실행합니다. 컨테이너를 작동하거나 다시 빌드하지 않습니다. 런타임 포트폴리오는 모델 아키텍처별로 선택됩니다.
| Runtime | 사용 목적 | Notes |
|---|---|---|
| vLLM | 처리량이 높은 LLM 서비스 | 연속 일괄 처리, PagedAttention, 텐서 병렬 처리, LoRA 핫 스왑. 대부분의 큰 언어 모델에 대한 기본값입니다. |
| SGLang | 구조적 출력 LLM 서비스 | 에이전트형 및 도구 사용 워크로드를 위한 JSON, regex 및 문법 제약 기반 생성 |
| TensorRT-LLM | NVIDIA 최적화 LLM 서비스 | 지연 시간 또는 처리량 측면에서 TRT-LLM이 우수한 모델 계열을 위한 저지연 NVIDIA 추론 |
| NVIDIA NIM | NVIDIA 추론 마이크로서비스 | NVIDIA가 게시한 모델용 NIM API 호환 TensorRT-LLM 백엔드 |
| TEI(텍스트 임베딩 추론) | 임베딩, 리랭커, 분류자 | 임베딩 및 검색 핫 패스를 위한 가속기별 커널입니다. |
| llama.cpp | CPU 및 소형 GPU 서빙 | 동일한 OpenAI 호환 API 뒤에 있는 GGUF 정량화된 모델 |
| hf-serve | 비전, 오디오, 분할, 기타 트랜스포머 기반 파이프라인 | LLM 및 임베딩 고속 경로 이외의 모달리티를 위한 Hugging Face의 멀티모델 서버 |
런타임 업그레이드 및 CVE 패치는 라이브 고객 배포에 자동으로 적용됩니다. 런타임 업데이트를 적용하기 위해 모델을 다시 배포할 필요가 없습니다.
지원되는 모델
Foundry의 관리형 컴퓨팅을 사용하여 Foundry 모델 카탈로그에서 레지스트리로 제공되는 azure-huggingface의 모델을 배포할 수 있습니다. 이러한 모델에는 다음과 같은 특성이 있습니다.
- 매주 큐레이팅되고 새로 고쳐집니다. Hugging Face 에코시스템의 인기 모델은 커뮤니티가 게시할 때 지속적으로 추가됩니다. 카탈로그는 텍스트, 비전, 오디오 및 멀티모달 모델(채팅 및 에이전트용 LLM 및 비전 언어 모델), ASR(자동 음성 인식), 음성 번역, 포함, 구분 및 이미지 생성에 걸쳐 있습니다.
- SafeTensors만, 신뢰할 수 없는 코드는 없습니다. 컬렉션의 모든 모델이 검사됩니다. 로드 시 타사 Python 실행해야 하는 리포지토리(
trust_remote_code패턴)는 수정되거나 제외됩니다. - 사전 준비된 가중치 모델 가중치는 Hugging Face에서 한 번 가져오고, 유효성을 검사하고, 모델이 제공되는 지역의 Microsoft 관리되는 Azure 스토리지에 저장됩니다. 컨테이너 이미지는 Microsoft 관리되는 레지스트리에 있습니다. 따라서 관리형 컴퓨팅 배포는 Hugging Face Hub에 대한 아웃바운드 네트워크 액세스가 필요하지 않으므로 송신 없이 완전 프라이빗 네트워크에 배포할 수 있습니다.
- 라이선스 메타데이터가 유지됩니다. 각 카탈로그 모델 카드는 업스트림 라이선스를 캡처하고 표시합니다. Microsoft 엔터프라이즈 배포 정책에 대한 라이선스 검토는 큐레이션 중에 수행됩니다.
모델 큐레이션 파이프라인
Hugging Face 컬렉션의 모든 모델은 카탈로그에 표시되기 전에 5단계 큐레이션 파이프라인을 통과합니다.
- 추가 모델 식별: Microsoft 커뮤니티 신호, 파트너 요청 및 고객 수요에 따라 추세 모델을 식별합니다.
-
규정 준수 및 보안 화면: 각 모델은 패턴 및 사용자 지정 실행 코드에 대한
trust_remote_code라이선스 검토 및 검사를 거칩니다. - 런타임 컨테이너 이미지 빌드, 검색 및 게시: Microsoft 빌드하고, CVE를 검색하고, 서명하고, Microsoft 관리되는 레지스트리에 게시합니다.
- Azure 스토리지를 보호하기 위해 가중치 추가: 모델 카드에 대해 유효성을 검사하고 모델이 제공되는 지역에 저장됩니다.
- 유효성 검사 및 게시: 모든 모델, 런타임 및 가속기 조합은 API 규칙 및 성능을 테스트한 다음 원클릭 배포 경로를 사용하여 카탈로그에 게시됩니다.
유추 엔드포인트
모델을 관리형 컴퓨팅에 배포하면 토큰당 종량제 및 프로비전된 처리량 배포에서 사용하는 것과 동일한 통합 Foundry 프로젝트 엔드포인트 에서 모델을 유추할 수 있습니다.
기본 엔드포인트에는 패턴https://<account>.services.ai.azure.com이 있습니다.
엔드포인트 경로
통합 엔드포인트에서 두 경로 패밀리를 통해 관리형 컴퓨팅 배포를 호출할 수 있습니다. 선택하는 경로는 기본 모델 및 런타임이 OpenAI 호환 API를 노출하는지 여부에 따라 달라집니다.
| 경로 | Path | 적용 대상 | 행동 |
|---|---|---|---|
| OSS(관리형 배포 경로) | <endpoint>/managed-deployments/<deployment-name>/ |
모든 관리되는 컴퓨팅 배포 | 자체 SDK와 함께 제공되는 맞춤형 모델을 포함하여 관리형 컴퓨팅에 배포된 모든 모델에 대해 작동합니다.
/chat/completions를 노출하는 모델은 클라이언트 base_url를 이 경로로 지정하여 OpenAI SDK로 이 경로를 통해 호출할 수도 있습니다. |
| OpenAI 호환 경로 | <endpoint>/openai/v1/ |
런타임이 OpenAI 호환 API를 제공하는 관리형 컴퓨팅 배포 환경(예: vLLM, SGLang, TensorRT-LLM, 채팅 또는 임베딩을 제공하는 llama.cpp) | OpenAI SDK는 이 경로로 설정하고 base_url 요청 페이로드 필드에 배포 이름을model 전달하여 배포를 호출할 수 있습니다. 요청이 기본 모델 또는 런타임이 OpenAI 호환 화면을 지원하지 않는 배포 이름으로 이 경로를 대상으로 하는 경우 런타임은 HTTP 404를 반환합니다. |
주요 내용:
- 모든 관리형 컴퓨팅 배포는
https://<account>.services.ai.azure.com/managed-deployments/<deployment-name>/경로로 액세스할 수 있습니다. - 런타임이 OpenAI와 호환되는 모든 배포 환경은 또한
https://<account>.services.ai.azure.com/openai/v1/경로를 통해서도 액세스할 수 있습니다. - 클라이언트 코드를 다른 Foundry 배포와 공유하려는 경우 OpenAI 경로를 사용합니다.
- 사용자 지정 SDK 또는 비 OpenAI API를 제공하는 모델에 대해 관리되는 배포 경로를 사용합니다.
Tip
채팅 완성 관리 컴퓨팅 배포를 관리자 연결 모델로 Foundry 에이전트에 추가하고 다른 Foundry 모델과 동일한 인증, 엔드포인트 및 관찰성을 사용하여 동일한 OpenAI SDK를 사용하여 Foundry 응답 API를 통해 호출할 수도 있습니다.
엔드포인트 인증
관리형 컴퓨팅 배포는 Foundry 엔드포인트의 나머지 부분과 동일한 인증 패턴을 사용합니다.
- Microsoft Entra ID(권장).
https://ai.azure.com/.default범위에 대한 토큰을 획득하고 이를Authorization헤더에서 Bearer 토큰으로 전달합니다. Entra ID 사용하여 관리형 컴퓨팅 배포를 호출하려면 호출 ID에 Foundry 계정 범위에서 Foundry User 역할이 필요합니다. 토큰 기반 모드의 OpenAI SDK는DefaultAzureCredential관리형 컴퓨팅 관련 구성 없이 작동합니다. - 계정 API 키입니다. Foundry 계정 키를
Authorization: Bearer <key>로 전달하세요. OpenAI SDK는api_key인수를 설정하면 키를 이 형식으로 자동 전송합니다. 키는 동일한 계정의 토큰당 종량제 및 PTU 배포와 마찬가지로 관리되는 컴퓨팅 배포에 대해 동일한 액세스 권한을 부여합니다.
두 인증 옵션은 두 엔드포인트 경로에서 모두 작동합니다. 엔드 투 엔드 클라이언트 코드 샘플(Entra ID 또는 API 키가 있는 OpenAI SDK)은 테스트 요청 보내기 참조하세요.
크기 조정
모델 인스턴스 수를 변경하여 관리형 컴퓨팅 배포의 크기를 조정합니다. 배포 SKU에서 capacity 값을 설정하면 Foundry는 GPU 수를 적절하게 조정합니다. 총 GPU는 선택한 배포 템플릿에 정의된 인스턴스당 GPU를 곱한 모델 인스턴스의 수와 같습니다. Foundry는 노드 크기를 조정하거나 VM 패밀리를 선택하라는 요청을 하지 않습니다.
청구, 할당량 및 배포 범위
관리형 컴퓨팅은 액셀러레이터당 시간당 요금이 청구됩니다. 전체 GPU 서버를 임대하고 모델이 사용 여부에 관계없이 모든 GPU에 대한 요금을 지불하는 VM 기반 인프라와 달리 모델 인스턴스에 대한 관리형 컴퓨팅 요금이 부과됩니다. Foundry는 각 모델의 크기를 실제로 필요한 GPU 수(1, 2, 4 또는 8)에 맞게 조정하므로 워크로드 옆에 있는 유휴 가속기에 대한 비용을 지불하지 않습니다. 배포 비용은 다음과 같습니다.
모델 인스턴스당 가속기 수 × 모델 인스턴스 수 × 실행 시간 × 시간당 요금
시간당 요금은 액셀러레이터 제품군(A100, H100, MI300X) 및 배포 범위에 따라 달라집니다. 현재 가격은 Azure 가격 계산기 참조하세요.
배포 범위
관리형 컴퓨팅(미리 보기)은 현재 배포 SKU 이름을 통해 설정된 GlobalManagedCompute 배포를 지원합니다. 글로벌 배포는 가장 낮은 속도로 가장 광범위한 액셀러레이터 용량을 제공합니다.
Quota
관리형 컴퓨팅 할당량은 Foundry 할당량 프로세스를 통해 지역별 액셀러레이터 패밀리별로 부여됩니다. 관리되는 컴퓨팅 할당량은 Azure VM 할당량 구분됩니다. Azure VM 할당량은 특정 지역 VM SKU와 연결된 서비스로서의 인프라 할당이지만 관리형 컴퓨팅은 관리되는 PaaS 제품입니다. 기존 Azure VM 할당량은 관리되는 컴퓨팅 배포에 적용할 수 없습니다.
사용량 보기, 프로젝트에 대한 비용 특성 지정 및 할당량 요청에 대한 자세한 내용은 Microsoft Foundry 및 관리 및 할당량 증가에 대한 비용 계획 및 관리 참조하세요.
액세스 제어
관리형 컴퓨팅은 Foundry의 RBAC(역할 기반 액세스 제어) 모델을 사용합니다. 관리형 컴퓨팅 배포를 만들고, 읽고, 업데이트하고, 삭제하는 데 필요한 Azure 리소스 공급자 작업 집합은 각 작업을 부여하는 기본 제공 역할과 함께 Microsoft Foundry의 관리형 컴퓨팅 컨트롤 플레인 작업 대한 액세스 제어에 설명되어 있습니다.
한눈에 보기:
- Cognitive Services 기여자 (또는 Foundry 소유자 / Foundry 계정 소유자)는 관리형 컴퓨팅 배포에 대해 모든 생성/읽기/업데이트/삭제 권한을 부여합니다.
- Cognitive Services 사용자 및 Foundry 사용자는 배포에 대한 읽기 전용 액세스 권한을 부여합니다.
- Foundry Project Manager 배포 및 가속기 사용량 데이터에 대한 읽기 권한을 부여하지만 만들거나 삭제하지는 않습니다.
통합 Foundry 엔드포인트에서의 추론(데이터 평면)은 Microsoft Entra ID를 사용해 배포를 호출할 수 있도록 Foundry 계정 범위에 Foundry User를 할당하는 표준 Foundry 패턴을 따릅니다.
Limitations
관리되는 컴퓨팅은 공개 미리 보기로 제공됩니다. 프로덕션 워크로드를 배포하기 전에 다음 사항에 유의하세요.
- 콘텐츠 필터링: 기본 제공 Azure AI 콘텐츠 보안 필터는 공개 미리 보기에서 관리형 컴퓨팅 데이터 경로의 일부가 아닙니다. 요청 수준 또는 응답 수준 필터링이 필요한 경우 애플리케이션에서 직접 Azure AI 콘텐츠 보안 API 호출합니다.
- 지역 가용성: 전역 범위를 사용하여 관리되는 컴퓨팅이 시작됩니다. 데이터 영역 배포 및 추가 지역이 배포되고 있습니다. 현재 적용 범위에 대한 일반 가용성 매트릭스 를 참조하세요.
- 가격 책정: 미리 보기에서 관리되는 컴퓨팅 배포를 위해 액셀러레이터 제품군 및 지역별 시간별 요금, 예약된 용량 및 약정 할인이 진화하고 있습니다. 현재 요금은 Azure 가격 계산기를 참조하세요.