Microsoft Foundry 모델은 생성 AI 애플리케이션을 위한 광범위한 AI 모델을 검색하고 배포하기 위한 허브입니다. 유추 요청에 모델을 사용할 수 있도록 하려면 모델을 배포합니다. Foundry는 모델 유형 및 인프라 요구 사항에 따라 두 가지 배포 옵션을 제공합니다.
팁
항상 배포를 만들 필요는 없습니다. 즉시 액세스(미리 보기)를 사용하면 지원되는 모델을 이름으로 호출하고 배포가 필요하지 않은 즉시 유추 실행을 시작합니다.
배포 옵션
Foundry는 다음 두 가지 배포 옵션을 제공합니다.
- Foundry 리소스의 표준 배포 — Azure에서 판매되는Foundry 모델(Azure 직접 모델 또는 ADM이라고도 함) 및 파트너 및 커뮤니티에서 모델 선택을 포함한 Foundry 모델의 경우. 이 옵션은 기본 설정되고 가장 지원되는 배포 경로입니다.
- 관리형 컴퓨팅 배포(미리 보기) - 파트너 및 커뮤니티의 모델과 사용자 지정 모델을 포함하여 모든 OSS(오픈 소스 소프트웨어) 모델에 사용할 수 있습니다.
Foundry 포털은 선택한 모델에 따라 적절한 배포 옵션을 자동으로 선택합니다.
| Foundry 리소스에서의 표준 배포 | 관리되는 컴퓨팅 | |
|---|---|---|
| 모델들 | ADM 모델(Azure OpenAI + Azure를 통해 청구된 파트너 모델) 및 파트너 및 커뮤니티에서 모델 선택 | 파트너 및 사용자 지정 모델의 모델 카탈로그에 있는 다른 모델입니다. 예를 들어 Hugging Face, NVIDIA NIM, 업계 모델 및 Databricks의 모델입니다. |
| 결제 | 토큰 사용량 또는 프로비전된 처리량 단위(PTU) | 액셀러레이터 SKU당 시간별 |
| 데이터 처리 | 지역, 데이터 영역 또는 전역 | 지역 전용 |
| 콘텐츠 필터링 | 기본 제공 및 사용자 지정 가능 | Azure AI 콘텐츠 안전 API를 통해 |
Foundry 리소스에서의 표준 배포
Foundry 리소스의 표준 배포는 Foundry 에서 기본 배포 옵션 입니다. 가장 광범위한 기능 및 배포 유형을 지원합니다.
표준 배포를 사용하는 모델은 무엇입니까?
Azure에서 판매하는 Foundry 모델과 파트너 및 커뮤니티의 일부 모델을 포함한 모든 Foundry 모델은 표준 배포를 사용합니다. Azure 판매된 Foundry 모델에는 Azure 구독을 통해 청구되고 Azure 서비스 수준 계약이 적용되며 Microsoft 지원하는 상위 공급자의 모든 Azure OpenAI 모델 및 선택한 모델이 포함됩니다. 표준 배포를 사용하는 파트너 및 커뮤니티의 모델 선택에는 Anthropic 모델 및 Mistral, Cohere 및 Meta와 같은 파트너의 특정 모델이 포함됩니다.
역량
표준 배포는 다음을 지원합니다.
- 전역 표준, 데이터 영역 표준, 지역 표준, 프로비전됨, 일괄 처리 등 여러 배포 유형입니다. 각 형식은 데이터가 처리되는 위치와 결제 방법을 제어합니다. 자세한 내용은 Microsoft Foundry 모델의 배포 유형을 참조하세요.
- 데이터 처리 유연성 - 규정 준수 요구 사항에 따라 지역, 데이터 영역(미국 또는 EU) 또는 전역 처리를 선택합니다.
- 콘텐츠 필터링 - 사용자 지정 가능한 구성이 포함된 기본 제공 Azure AI 콘텐츠 안전 필터입니다.
- 키 없는 인증 - Microsoft Entra ID(권장) 및 키 기반 인증입니다.
- 프라이빗 네트워킹 - 보안 액세스를 위한 가상 네트워크 통합.
- 프로비전된 처리량 - 예측 가능하고 저지연 성능을 위해 PTUs를 사용하여 용량을 예약합니다. 자세한 내용은 프로비전된 처리량을 참조하세요.
리소스 요구 사항
표준 배포는 다음에서 사용할 수 있습니다.
- Foundry 리소스 - 새 Foundry 프로젝트의 기본 리소스 종류입니다. AI Hub가 필요하지 않습니다.
- Azure OpenAI 리소스 - Azure OpenAI 리소스를 사용하는 경우 모델 카탈로그는 배포를 위해 Azure OpenAI 모델만 표시합니다. Foundry 모델의 전체 집합에 액세스하려면 Foundry 리소스로 업그레이드합니다.
배포를 시작하려면 Foundry 포털에서 Microsoft Foundry 모델 배포 또는 Azure CLI 및 Bicep을 사용하여 모델 배포를 참조하세요.
관리형 컴퓨팅 배포(미리 보기)
비고
Foundry의 관리 컴퓨팅은 현재 공개 미리 보기로 제공되며 이를 사용 하려면 등록이 필요합니다 . 이 미리 보기는 서비스 수준 계약 없이 제공되며 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
Foundry(미리 보기)의 관리형 컴퓨팅은 전용 GPU 용량에서 오픈 소스 및 사용자 지정 가중치 모델을 호스트하는 관리형 GPU PaaS(Platform as a Service)입니다. 가상 머신, 클러스터 또는 런타임을 소유하지 않고 다른 배포 유형과 동일한 Foundry 프로젝트 엔드포인트를 통해 관리되는 컴퓨팅 배포에 액세스합니다. Foundry는 배포 크기를 조정하고, 가속기를 프로비전하고, 런타임 패치를 유지합니다.
중요
관리형 컴퓨팅은 오픈 소스, 파트너, 산업 및 사용자 지정 모델을 지원합니다. 관리형 컴퓨팅 배포는 동일한 인증, 네트워킹 및 SDK 화면을 사용하여 통합 Foundry 프로젝트 엔드포인트에서 제공됩니다.
관리형 컴퓨팅을 사용하는 모델은 무엇입니까?
관리형 컴퓨팅이 필요한 모델 컬렉션의 예는 다음과 같습니다.
- 포옹하는 얼굴
- 일부 메타 모델
- 일부 Mistral 모델
- NVIDIA 유추 마이크로 서비스(NIM)
- 산업 모델(Saifr, Rockwell, Bayer, Cerence, Sight Machine, Page AI, SDAIA)
- Databricks
- 사용자 지정 모델
Microsoft Foundry의 카탈로그에는 10,000개 이상의 오픈 소스 및 파트너 모델이 포함되어 있으며 매달 약 50개의 새 모델이 게시됩니다.
역량
관리형 컴퓨팅(미리 보기)은 다음을 지원합니다.
-
Unified Foundry 엔드포인트 및 인증 — 토큰당 종량제 및 프로비전된 처리량 배포와 동일한 프로젝트 엔드포인트, API 키, Microsoft Entra ID 및 프라이빗 네트워킹을 사용합니다. 추론 경로는
<endpoint>/managed-deployments/<deployment-name>/를 사용합니다. 채팅 완성 호환 런타임은 OpenAI SDK를 사용하는 표준/openai/v1/경로에서도 작동합니다. - 모델 인스턴스 크기 조정 - 배포는 모델 중심 용어로 크기가 조정됩니다. Foundry는 모델 크기, 아키텍처, 컨텍스트 길이 및 워크로드가 대기 시간 또는 처리량에 최적화되었는지 여부에 따라 인스턴스당 GPU를 선택하므로 가상 머신 SKU를 선택할 필요가 없습니다.
- 최적화된 추론 런타임 — 연속 배치 처리, 추측 디코딩, 텐서 병렬화, LoRA 핫스왑을 지원하는 Microsoft에서 선별한 vLLM, SGLang 및 NVIDIA NIM 컨테이너.
- 액셀러레이터 제품군 - A100(80GB), H100(80GB), H200(141GB) 및 MI300X입니다.
- 자동 크기 조정 및 0으로 크기 조정 - 실시간 트래픽에서 자동 크기 조정 또는 수동으로 크기 조정 트래픽이 도착하지 않을 때 배포가 0으로 확장되도록 유휴 시간 제한을 구성하여 청구를 즉시 중지합니다.
- Microsoft 관리형 런타임 - Microsoft 서비스 런타임, 기본 컨테이너 이미지 및 보안 패치를 소유합니다. 업데이트는 라이브 배포에 자동으로 적용됩니다.
- 관찰성 메트릭 - 각 배포는 상태 코드 및 응답 시간 백분위수별로 API 호출 수를 내보낸다. 또한 채팅 완성 모델은 입력 및 출력 토큰 수, TTFT(Time-to-First 토큰) 백분위수 및 총 응답 시간 백분위수를 시간별로 그룹화합니다.
청구 및 할당량
관리형 컴퓨팅 청구는 기본 청구 단위로 GPU당 처리량을 사용하여 가속기 SKU당 시간당 청구됩니다. 자동 크기 조정과 0으로 스케일하는 기능을 통해 비용을 실제 트래픽에 맞출 수 있으며, 인스턴스가 축소되면 과금이 즉시 중단됩니다.
할당량은 Foundry 할당량 프로세스를 통해 지역당 액셀러레이터 SKU당 부여되며 Azure VM 할당량 구분됩니다. Azure 가상 머신은 지역 SKU를 사용하는 IaaS(Infrastructure-as-a-Service) 제품입니다. 관리형 컴퓨팅은 글로벌 및 데이터 영역 처리를 이끄는 PaaS 제품입니다. 기존 Azure VM 할당량은 관리되는 컴퓨팅 배포에 적용할 수 없습니다.
관리되는 컴퓨팅은 현재 전역 배포에 사용할 수 있습니다. 요금 예측은 Azure 가격 계산기 참조하세요.
시작
배포 옵션 비교
가능하면 Foundry 리소스에서 표준 배포를 사용합니다. 다음 표에서는 두 배포 옵션의 기능을 비교합니다.
| 기능 | Foundry 리소스에서의 표준 배포 | 관리되는 컴퓨팅 |
|---|---|---|
| 어떤 모델을 배포할 수 있나요? | Azure에서 판매하는 Foundry 모델 및 파트너와 커뮤니티의 일부 모델을 포함한 모든 Foundry 모델 | 모델 카탈로그, NVIDIA NIM 및 산업 모델의 오픈 소스 및 파트너 모델 |
| 배포 리소스 | 주조소 자원 | 파운드리 프로젝트 |
| AI Hub이 필요합니다 | 아니요 | 아니요 |
| 데이터 처리 옵션 | 지역, 데이터 영역, 전역 | 글로벌 |
| 프라이빗 네트워킹 | 예 | 예 |
| 콘텐츠 필터링 | 기본 제공 및 사용자 지정 가능 | 공개 미리 보기에서 사용할 수 없음 |
| 키 없는 인증 | 예(Microsoft Entra ID 및 키 기반) | 예(Microsoft Entra ID 및 키 기반) |
| 청구서 발행 | 토큰 사용량 또는 프로비전된 처리량 단위 | 액셀러레이터 SKU당 시간별 |
팁
자세한 가격 책정 정보는 Microsoft Foundry 대한 비용 계획 및 관리를 참조하세요.