Calcolo gestito in Microsoft Foundry (anteprima)

Note

Il calcolo gestito in Foundry è attualmente in anteprima pubblica ed è necessaria la registrazione per usarlo. Questa anteprima viene fornita senza un contratto di servizio e non è consigliabile per i carichi di lavoro di produzione. Alcune funzionalità potrebbero non essere supportate o potrebbero avere funzionalità limitate. Per ulteriori informazioni, vedere Condizioni supplementari per l'uso delle versioni di anteprima di Microsoft Azure.

Il calcolo gestito (anteprima) è un tipo di distribuzione di Microsoft Foundry che ospita modelli open source su capacità GPU dedicata senza dover eseguire il provisioning di macchine virtuali, gestire un cluster Kubernetes, creare immagini di contenitore o disporre di un runtime di serving dei modelli. Microsoft è proprietaria della topologia GPU, del runtime, dell'immagine del contenitore e dell'applicazione di patch di sicurezza. È possibile scegliere il modello, il modello di distribuzione, la famiglia di acceleratori e il comportamento di ridimensionamento che soddisfano il carico di lavoro.

Il calcolo gestito usa la stessa risorsa Foundry, il progetto, l'endpoint, l'autenticazione, la configurazione di rete, gli SDK, l'osservabilità e la superficie di fatturazione di qualsiasi altro tipo di distribuzione in Foundry. Dopo aver distribuito un modello con calcolo gestito, il codice dell'applicazione è uguale a qualsiasi altro modello Foundry; cambia solo il nome della distribuzione.

Questo articolo illustra il tipo di distribuzione di calcolo gestito in Foundry, i concetti usati (istanze del modello, modelli di distribuzione, famiglie di acceleratori, runtime), il catalogo che è possibile distribuire da, endpoint di inferenza, ridimensionamento, fatturazione e quota, controllo di accesso e limitazioni correnti. Per istruzioni dettagliate sulla distribuzione, vedere Distribuire modelli open source con calcolo gestito.

Il ruolo del managed compute in Foundry

Foundry offre tre tipi di distribuzione. Il calcolo gestito è il tipo di distribuzione da usare per i modelli open source nella capacità GPU dedicata.

Tipo di distribuzione Cosa serve Billing Migliore per
Tariffa standard a gettone Modelli Foundry venduti da Azure Per ogni token in ingresso e in uscita Il percorso più semplice per iniziare; picchi di traffico sui modelli ospitati senza pianificazione della capacità.
Larghezza di banda allocata Foundry Models venduto da Azure Unità di throughput riservate Con carico prevedibile e sostenuto su modelli Foundry selezionati offerti tramite Azure, con latenza costante.
Calcolo gestito Modelli open source e community dal catalogo Foundry Orario per famiglia di acceleratori Hosting di modelli open source in GPU dedicate con runtime gestiti da Foundry, rete privata e gli stessi SDK degli altri tipi di distribuzione.

Tutti e tre i tipi di distribuzione condividono un singolo endpoint Foundry, gli stessi modelli di autenticazione (Microsoft Entra ID e chiave), gli stessi SDK, la stessa superficie di osservabilità e una singola fattura. È possibile combinare tutti e tre i tipi di distribuzione in un singolo progetto Foundry e chiamarli dallo stesso codice client.

Concetti chiave

Questa sezione illustra i concetti chiave da comprendere prima di usare la distribuzione di calcolo gestita in Foundry.

Istanza del modello

Un'istanza del modello è l'unità di distribuzione nell'ambiente di calcolo gestito. Non si sceglie uno SKU di macchina virtuale o si ridimensiona un nodo; Viene invece descritto il carico di lavoro in termini di modello e Foundry sceglie la topologia GPU sottostante. Un'istanza di può usare un acceleratore o più, a seconda del modello e del modello di distribuzione scelto. È possibile ridimensionare una distribuzione modificando il numero di istanze del modello (il capacity valore nello SKU di distribuzione).

Modello di distribuzione

Un modello di distribuzione è un asset denominato con controllo delle versioni che codifica la modalità di esecuzione di un modello specifico. Un modello di spille:

  • Il runtime di esecuzione (ad esempio, vLLM o SGLang).
  • La famiglia di acceleratori e il numero di unità per configurazione (ad esempio, un H100 da 80 GB o due A100 da 80 GB).
  • Lunghezza del contesto supportata ed eventuali scelte di quantizzazione.
  • Ottimizzazioni specifiche per l'esecuzione, quali parser per le chiamate agli strumenti e per il ragionamento, percorso di valutazione, controlli di integrità, concorrenza delle richieste ed eventuali impostazioni di estensione del contesto specifiche del modello.

Quando si crea uno script per una distribuzione, si fa riferimento all'ID modello e Foundry gestisce il resto. Ogni modello presente nel catalogo viene solitamente fornito con diversi modelli predefiniti che bilanciano la famiglia di acceleratori, la lunghezza del contesto e il rapporto tra latenza e velocità di trasmissione. Ad esempio, il qwen3-32b modello espone quattro modelli affiancati:

Template Runtime Acceleratore Contesto
qwen--qwen3-32b--40k-nvidia-a100 vLLM 1 × A100 80 GB 40 K
qwen--qwen3-32b--40k-nvidia-h100 vLLM 1 × H100 80 GB 40 K
qwen--qwen3-32b--128k-nvidia-2xa100 vLLM 2 × A100 80 GB 128 K
qwen--qwen3-32b--128k-nvidia-2xh100 vLLM 2 × H100 80 GB 128 K

La scelta di un template è l'unica leva su cui puoi agire per determinare come viene eseguito un modello.

Famiglie di acceleratori

Le distribuzioni di calcolo gestite sono destinate a una famiglia di acceleratori, non a uno SKU di macchina virtuale specifico. Le famiglie supportate sono:

  • NVIDIA A100 80 GB (A100_80GB)
  • NVIDIA H100 80 GB (H100_80GB)
  • AMD MI300X 192 GB (MI_300_192GB)

La quota viene assegnata per famiglia di acceleratori per regione.

Runtime dei modelli

Il servizio di elaborazione gestita esegue ogni modello su un ambiente di esecuzione che Microsoft crea, analizza, firma e aggiorna. Non ti occupi della gestione né della ricostruzione dei container. Il portfolio di runtime è selezionato per architettura del modello:

Runtime Usare per Note
vLLM Servizio LLM ad alta produttività Dosaggio continuo, PagedAttention, parallelismo tensoriale, hot-swap LoRA. Impostazione predefinita per la maggior parte dei modelli linguistici di grandi dimensioni.
SGLang Servizio di modelli di linguaggio a grande scala (LLM) con output strutturato JSON, regex e generazione vincolata da grammatica per carichi di lavoro basati su agenti e che utilizzano strumenti.
TensorRT-LLM Servizio LLM ottimizzato per NVIDIA Inferenza NVIDIA a bassa latenza per le famiglie di modelli in cui TRT-LLM prevale sulla latenza o sulla velocità effettiva.
NVIDIA NIM Microservizi di inferenza NVIDIA TensorRT-LLM back-end con compatibilità dell'API NIM per i modelli pubblicati da NVIDIA.
Inferenza delle rappresentazioni testuali (TEI) Incorporamenti, algoritmi di riclassificazione, classificatori Kernel specifici per l'acceleratore destinati alle operazioni più frequenti di inserimento e recupero dei dati.
llama.cpp Servizio basato su CPU e GPU di piccole dimensioni Modelli quantizzati in formato GGUF tramite la stessa API compatibile con OpenAI.
hf-serve Visione artificiale, audio, segmentazione, altre pipeline native dei Transformer Il server multimodello di Hugging Face per modalità diverse dai modelli di linguaggio di grandi dimensioni (LLM) e percorsi rapidi di embedding.

Gli aggiornamenti di runtime e le patch CVE vengono applicati automaticamente alle distribuzioni dei clienti in tempo reale. Non è necessario redistribuire il modello per ricevere un aggiornamento del runtime.

Modelli supportati

Puoi usare il compute gestito in Foundry per distribuire i modelli della collezione Hugging Face nel catalogo dei modelli di Foundry, erogati dal registry azure-huggingface. Questi modelli hanno gli attributi seguenti:

  • Curato e aggiornato settimanalmente. I modelli più popolari dell'ecosistema Hugging Face vengono aggiunti continuamente man mano che la community li pubblica. Il catalogo si estende su testo, visione, audio e modelli bidirezionali (LLMs e modelli di linguaggio di visione per chat e agenti), riconoscimento vocale automatico (ASR), traduzione vocale, incorporamenti, segmentazione e generazione di immagini.
  • Solo SafeTensors, nessun codice non attendibile. Ogni modello nella collezione viene sottoposto a controllo. I repository che richiedono l'esecuzione di Python di terze parti in fase di caricamento (trust_remote_code pattern) vengono corretti o esclusi.
  • Pesi predisposti in anticipo. I pesi del modello vengono prelevati da Hugging Face una sola volta, convalidati e archiviati nell'archiviazione Azure gestita da Microsoft nelle regioni in cui il modello è distribuito. Le immagini del contenitore si trovano in un registro gestito da Microsoft. Di conseguenza, le distribuzioni di calcolo gestite non richiedono l'accesso alla rete in uscita a Hugging Face Hub . È possibile eseguire la distribuzione in una rete completamente privata senza uscita.
  • Metadati delle licenze conservati. Ogni scheda modello del catalogo rileva e riporta la licenza a monte. La verifica delle licenze in base ai criteri di distribuzione aziendale di Microsoft avviene durante il processo di curation.

Pipeline di selezione dei modelli

Ogni modello nella raccolta Hugging Face passa attraverso una pipeline di cura a cinque fasi prima che venga visualizzata nel catalogo:

  1. Identify trending models: Microsoft identifica i modelli di tendenza in base ai segnali della community, alle richieste dei partner e alla domanda dei clienti.
  2. Verifica della conformità e della sicurezza: ogni modello viene sottoposto a controllo della licenza e a ispezione dei trust_remote_code pattern e del codice eseguibile personalizzato.
  3. Creare, analizzare e pubblicare immagini di contenitori di runtime: create da Microsoft, sottoposte a scansione per le CVE, firmate e pubblicate in un registro gestito da Microsoft.
  4. Carica i dati su un archivio Azure protetto: Convalidati rispetto alla scheda del modello e archiviati nelle regioni in cui il modello è disponibile.
  5. Convalidare e pubblicare: ogni combinazione di modello, runtime e acceleratore viene testata per la conformità e le prestazioni dell'API, quindi pubblicata nel catalogo con un percorso di distribuzione con un clic.

Endpoint di inferenza

La distribuzione di un modello su un'istanza di elaborazione gestita rende il modello disponibile per l'inferenza sullo stesso endpoint del progetto Foundry unificato utilizzato dalle distribuzioni pay-per-token e a throughput provisionato. L'endpoint di base ha il modello https://<account>.services.ai.azure.com.

Percorsi degli endpoint

Un'implementazione di elaborazione gestita può essere attivata su due famiglie di percorsi sull'endpoint unificato. La route scelta dipende dal fatto che il modello e il runtime sottostanti espongono un'API compatibile con OpenAI.

Itinerario Percorso Si applica a Behavior
Percorso delle implementazioni gestite (OSS) <endpoint>/managed-deployments/<deployment-name>/ Tutte le distribuzioni di calcolo gestite Funziona per ogni modello distribuito in un ambiente di calcolo gestito, inclusi modelli su misura forniti con il proprio SDK. I modelli che espongono /chat/completions possono anche essere richiamati tramite questo percorso con l’SDK di OpenAI, puntando il client base_url a questo percorso.
Route compatibile con OpenAI <endpoint>/openai/v1/ Implementazioni di elaborazione gestita il cui runtime espone un'API compatibile con OpenAI (ad esempio, vLLM, SGLang, TensorRT-LLM, llama.cpp per la gestione di chat o embedding) OpenAI SDK può chiamare la distribuzione impostando base_url su questo percorso e passando il nome della distribuzione nel model campo del payload della richiesta. Se una richiesta è destinata a questa route con un nome di distribuzione il cui modello o runtime sottostante non supporta la superficie compatibile con OpenAI, il runtime restituisce HTTP 404.

Punti chiave:

  • Ogni distribuzione di risorse di calcolo gestita è raggiungibile sulla rotta https://<account>.services.ai.azure.com/managed-deployments/<deployment-name>/
  • Qualsiasi distribuzione il cui runtime è compatibile con OpenAI è anche raggiungibile tramite la https://<account>.services.ai.azure.com/openai/v1/ rotta.
  • Usa la route OpenAI quando vuoi condividere il codice client con altre distribuzioni Foundry.
  • Usare la route delle distribuzioni gestite per i modelli che includono un SDK personalizzato o un'API non OpenAI.

Tip

È inoltre possibile aggiungere a un Foundry Agent un'implementazione di elaborazione gestita tramite completamento automatico delle chat come modello collegato all'amministratore e richiamarla tramite l'API Foundry Responses utilizzando lo stesso SDK OpenAI, con le stesse credenziali di autenticazione, lo stesso endpoint e le stesse funzionalità di monitorabilità di qualsiasi altro modello Foundry.

Autenticazione dell'endpoint

Le distribuzioni di calcolo gestite usano gli stessi modelli di autenticazione del resto dell'endpoint Foundry:

  • Microsoft Entra ID (scelta consigliata). Acquisisci un token per l'ambito https://ai.azure.com/.default e passalo come token bearer nell'header Authorization. Per richiamare una distribuzione di risorse di calcolo gestita con Entra ID, l'identità chiamante deve disporre del ruolo Foundry User nell'ambito dell'account Foundry. OpenAI SDK in modalità basata su token e DefaultAzureCredential funziona senza alcuna configurazione specifica del calcolo gestito.
  • Chiave API dell'account. Inserisci la chiave dell'account Foundry come Authorization: Bearer <key>. L'SDK di OpenAI invia automaticamente la chiave in questo formato quando si imposta l'argomento api_key. Le chiavi garantiscono lo stesso livello di accesso sia nelle distribuzioni di risorse di calcolo gestite sia nelle distribuzioni pay-per-token e PTU dello stesso account.

Entrambe le opzioni di autenticazione funzionano su entrambe le route dell'endpoint. Per esempi di codice client end-to-end (OpenAI SDK con Entra ID o chiave API), vedere Send a test request.

Scaling

È possibile ridimensionare una distribuzione di calcolo gestita modificando il numero di istanze del modello. Quando si imposta il capacity valore nello SKU di distribuzione, Foundry regola il numero di GPU di conseguenza. Le GPU totali equivalgono al numero di istanze del modello moltiplicate per le GPU per istanza definite dal modello di distribuzione scelto. Foundry non chiede di ridimensionare un nodo o selezionare una famiglia di macchine virtuali.

Ambiti di fatturazione, quota e distribuzione

Il calcolo gestito viene fatturato su base oraria per acceleratore. A differenza dell'infrastruttura basata su VM, in cui si affittano interi server GPU e si paga per ogni GPU del server, indipendentemente dal fatto che il modello la utilizzi o meno, il calcolo gestito viene addebitato in base alle istanze del modello. Foundry adatta ogni modello al numero di GPU effettivamente necessarie (uno, due, quattro o otto) in modo da non pagare per gli acceleratori inattivi seduti accanto al carico di lavoro. Il costo di una distribuzione è:

Acceleratori per ogni istanza del modello × istanze del modello × ore di esecuzione × tariffa oraria

Le tariffe orarie variano in base alla famiglia di acceleratori (A100, H100, MI300X) e all'ambito di distribuzione. Per i prezzi correnti, vedere Azure calcolatore prezzi.

Ambito di distribuzione

Il calcolo gestito (anteprima) supporta attualmente la distribuzione globale , impostata tramite il nome GlobalManagedComputedello SKU di distribuzione . La distribuzione globale offre la capacità di acceleratore più ampia alla velocità più bassa.

Quota

La quota di calcolo gestita viene concessa per ciascuna famiglia di acceleratori e per area geografica tramite il processo di quota di Foundry. La quota di calcolo gestita è separate dalla quota di macchine virtuali Azure. Mentre la quota di VM di Azure è un'allocazione IaaS associata a SKU di VM regionali specifici, il calcolo gestito è un'offerta PaaS gestita. La quota di macchine virtuali Azure esistente non può essere applicata a una distribuzione di calcolo gestita.

Per informazioni dettagliate sulla visualizzazione dell'utilizzo, l'attribuzione dei costi a un progetto e la richiesta di quote, vedere Pianificare e gestire i costi per Microsoft Foundry e Gestire e aumentare le quote.

Controllo di accesso

Il calcolo gestito usa il modello di controllo degli accessi in base al ruolo (RBAC) di Foundry. Il set di operazioni del provider di risorse Azure necessarie per creare, leggere, aggiornare ed eliminare una distribuzione di calcolo gestita è documentato in Controllo degli accessi in base al ruolo per Microsoft Foundry - operazioni del piano di controllo di calcolo gestito, insieme ai ruoli predefiniti che concedono ogni operazione.

A colpo d'occhio:

  • Il collaboratore di Cognitive Services (o Titolare di Foundry / Titolare dell'account Foundry) dispone di autorizzazioni complete di creazione, lettura, aggiornamento ed eliminazione sulle distribuzioni di risorse di calcolo gestite.
  • Gli utenti Cognitive Services e Foundry dispongono di un accesso in sola lettura alle distribuzioni.
  • Il ruolo di Project Manager di Foundry concede l'accesso in lettura alle distribuzioni e ai dati sull'utilizzo dell'acceleratore, ma non l'autorizzazione a creare o eliminare.

L'inferenza (piano dati) sull'endpoint Foundry unificato segue il modello standard di Foundry, assegnando Foundry User nell'ambito dell'account Foundry per richiamare le distribuzioni con Microsoft Entra ID.

Limitations

Il calcolo gestito è disponibile in anteprima pubblica. Prima di distribuire i carichi di lavoro di produzione, tenere presente quanto segue:

  • Filtro contenuto: i filtri Sicurezza dei contenuti di Azure AI predefiniti non fanno parte del percorso dei dati di calcolo gestito in anteprima pubblica. Se è necessario filtrare a livello di richiesta o a livello di risposta, chiamare le API Sicurezza dei contenuti di Azure AI direttamente dall'applicazione.
  • Disponibilità per area geografica: il compute gestito è disponibile a livello globale. Le distribuzioni di Data Zone e altre aree geografiche sono in fase di distribuzione — vedere la matrice della disponibilità generale per la copertura attuale.
  • Prezzi: Le tariffe orarie per famiglia di acceleratori e area, la capacità riservata e gli sconti per impegno stanno subendo modifiche per l'implementazione di risorse di calcolo gestite in anteprima. Per le tariffe correnti, vedere il calcolatore prezzi di Azure.