Fatturazione del throughput con provisioning e gestione dei costi

Visualizzazione attualmente:Nuova versione - Passare alla versione per il portale di Foundry classico

Le distribuzioni di velocità effettiva con provisioning in Microsoft Foundry supportano la fatturazione oraria per l'utilizzo flessibile, a breve termine e le prenotazioni Azure per carichi di lavoro di produzione sostenuti a una tariffa scontata. Questo articolo illustra il funzionamento della fatturazione PTU, consente di scegliere tra fatturazione oraria e prenotazioni Azure e illustra come monitorare e gestire i costi delle prenotazioni.

Se non si ha familiarità con la velocità effettiva con provisioning, iniziare con Che cos'è la velocità effettiva con provisioning per i modelli foundry?. Per stimare il numero di PTU necessarie per un carico di lavoro, vedi Determinare il dimensionamento delle PTU per un carico di lavoro. Quando sei pronto per creare la tua prima distribuzione, consulta Introduzione alle distribuzioni con provisioning.

Funzionamento della fatturazione PTU

Le unità di throughput con provisioning (PTU) sono unità generiche della capacità di elaborazione del modello. Quando si crea una distribuzione con provisioning, specificare il numero di PTU da allocare. Foundry riserva e mantiene allocata tale capacità PTU per la distribuzione e il relativo costo ti viene addebitato su base oraria, indipendentemente dal fatto che la distribuzione stia gestendo richieste o meno. In altre parole, ti viene addebitato un importo orario in base al numero di Unità di throughput con provisioning (PTU) che dispieghi, anziché al numero di token consumati.

La fatturazione PTU ha due caratteristiche importanti:

  • Fatturata in base alla capacità distribuita, non al consumo di token: a differenza della fatturazione con pagamento in base al token, si paga per la capacità riservata. Le richieste che vengono completate utilizzano correttamente tale capacità, ma vengono fatturate per il conteggio completo delle PTU distribuite indipendentemente dall'utilizzo effettivo.
  • Indipendente dal modello: la quota PTU viene condivisa tra tutti i modelli supportati in un'area e in un tipo di distribuzione. Lo stesso pool PTU può essere usato per distribuire qualsiasi modello supportato. Non si acquistano PTU per un modello specifico. La quota PTU per ogni tipo di distribuzione con provisioning viene visualizzata nella pagina Quota del portale Foundry.

Le distribuzioni con provisioning supportano due modalità di fatturazione: fatturazione oraria per un utilizzo flessibile a breve termine e Prenotazioni di Azure per carichi di lavoro di produzione continuativi a tariffa scontata.

Note

I clienti per cui Foundry ha eseguito il provisioning e che hanno completato l'onboarding prima dell'aggiornamento self-service di agosto 2024 utilizzano un modello di acquisto denominato modello Commitment. Questi clienti possono continuare a usare il modello Impegno insieme alla fatturazione oraria/prenotazione. Il modello Impegno non è disponibile per i nuovi clienti o alcuni modelli introdotti dopo agosto 2024. Per i dettagli sul modello di acquisto Commitment e sulle opzioni di coesistenza e migrazione, vedere Foundry Provisioned August Update.

Fatturazione oraria

Le distribuzioni con provisioning effettuato (area regionale, zona dati e globale) sono addebitate in base a una tariffa oraria ($/PTU/hr), calcolata sul numero di PTU distribuite. Ad esempio, una distribuzione da 300 PTU viene addebitata come segue: tariffa oraria × 300.

Se una distribuzione dura solo per una parte di un'ora, viene applicato un addebito proporzionale:

  • Una distribuzione che dura 15 minuti viene addebitata per 1/4 della tariffa oraria.
  • Se si ridimensiona la distribuzione, la fatturazione viene adattata immediatamente al nuovo conteggio PTU.

Diagramma che mostra la fatturazione oraria per le distribuzioni con provisioning, in cui il costo è determinato dal numero di PTU e dalle ore distribuite.

Le distribuzioni di cui è stato eseguito il provisioning non possono essere sospese. La fatturazione si arresta solo quando la distribuzione viene eliminata.

Per i prezzi PTU correnti per famiglia di modelli, vedere prezzi di Azure OpenAI, prezzi dei modelli Llama e prezzi dei modelli DeepSeek.

Quando usare la fatturazione oraria

La fatturazione oraria è appropriata per scenari a breve termine, ad esempio:

  • Valutare la qualità o le prestazioni del modello prima di impegnarsi in una prenotazione.
  • Ridimensionare temporaneamente la capacità PTU per un evento, ad esempio un hackathon.

La fatturazione oraria non è appropriata per le distribuzioni nell'ambiente di produzione (usare invece le prenotazioni). Non è consigliabile usare la fatturazione oraria per aumentare e ridurre le distribuzioni di produzione man mano che il traffico cambia per questi motivi:

  • Cost: Azure Prenotazioni offrono sconti significativi sulla fatturazione oraria. Mantenere una distribuzione dimensionata per l’intero volume di produzione con una prenotazione è in genere meno costoso della fatturazione oraria continua con il ridimensionamento della distribuzione verso l’alto o verso il basso in base al traffico in arrivo.
  • Rischio di capacità: la quota inutilizzata non garantisce che la capacità sia disponibile quando si vuole eseguire il backup della distribuzione PTU. La capacità di cui è stato effettuato il provisioning è una risorsa limitata e modificata in modo dinamico. Una strategia di ridimensionamento verso il basso/verso l’alto può lasciarti senza capacità proprio quando ne hai più bisogno.

Ridimensionare le distribuzioni provisionate

È possibile aumentare o ridurre il numero di PTU di una distribuzione con provisioning esistente in qualsiasi momento nel portale di Foundry o tramite l'API. La fatturazione viene modificata immediatamente in base al nuovo conteggio PTU.

Tenere presenti questi vincoli durante il ridimensionamento:

  • La scalabilità verticale richiede capacità disponibile: i PTU aggiuntivi sono soggetti alla disponibilità della capacità al momento del ridimensionamento. Se la capacità PTU nell'area non è sufficiente per il nuovo numero di PTU, l'aumento delle prestazioni ha esito negativo. Usare l'esperienza di distribuzione del portale Foundry o l'API delle capacità del modello per verificare la capacità prima di pianificare un evento di aumento delle prestazioni.
  • La riduzione delle risorse allocate libera capacità in modo permanente: ridurre il numero di PTU di una distribuzione restituisce la capacità liberata al pool della regione. Non vi è alcuna garanzia che la stessa capacità sia disponibile se in seguito si aumenta nuovamente la capacità.
  • La fatturazione viene modificata immediatamente: la fatturazione addebita il nuovo conteggio PTU dal momento in cui il ridimensionamento viene completato, ripartito in base al minuto.
  • Le prenotazioni non sono influenzate dal ridimensionamento della distribuzione: se la distribuzione è coperta da una prenotazione e ne riduci le dimensioni, la prenotazione mantiene la quantità di PTU originale. I PTU distribuiti che rientrano sotto la quantità di prenotazioni comportano una copertura della prenotazione inutilizzata; I PTU distribuiti che superano la quantità vengono fatturati alla tariffa oraria. Vedi Esempio di eccedenza di prenotazione.

Prenotazioni di Azure per il throughput di cui è stato effettuato il provisioning

Una prenotazione Azure è un meccanismo di sconto a termine condiviso da molti prodotti Azure, ad esempio Azure Compute e Cosmos DB. Le prenotazioni di Azure per la velocità effettiva di cui è stato effettuato il provisioning (a livello di area, zona dati e globale) sono uno sconto economico applicato ai contatori di fatturazione delle PTU, non alle interazioni con il servizio, ad esempio la creazione di una distribuzione. Con le riservazioni, ci si impegna a pagare per un numero fisso di PTU per una durata di un mese o di un anno e, in cambio, si riceve una tariffa effettiva scontata di $/PTU/hr. Lo sconto rende le prenotazioni notevolmente più convenienti rispetto alla fatturazione oraria a lungo termine per carichi di lavoro sostenuti.

Le prenotazioni e le distribuzioni sono debolmente accoppiate: si possono creare distribuzioni e prenotazioni in modo indipendente. Questa flessibilità consente di modificare risorse, sottoscrizioni o distribuzioni senza modificare il costrutto di fatturazione.

Importante

Poiché la disponibilità della capacità per le distribuzioni di modelli è dinamica e cambia frequentemente tra aree e modelli, creare sempre le distribuzioni per prima cosa, quindi acquistare la prenotazione Azure per coprire i PTU distribuiti. Questo approccio evita di impegnarsi in una prenotazione per PTU che non è possibile distribuire e garantisce di ricevere l'intero sconto sulla prenotazione.

Informazioni chiave sulla prenotazione

Topic Dettagli
Acquistato nel portale di Azure Le prenotazioni di Azure vengono acquistate tramite la pagina Prenotazioni nel portale di Azure.
Acquistato per tipo di distribuzione Le prenotazioni con provisioning globale, con provisioning dell'area dati e con provisioning regionale sono acquisti separati. Una prenotazione con provisioning globale non copre una distribuzione con provisioning a livello di area.
Tariffa scontata per un impegno a termine In cambio di un impegno di 1 mese o di 1 anno, si riceve una tariffa effettiva $/PTU/hr scontata rispetto alla fatturazione oraria. Lo sconto varia in base alla famiglia di modelli e alla lunghezza del termine. Per le tariffe correnti, vedi Risparmia sui costi con le prenotazioni di velocità effettiva con provisioning di Microsoft Foundry oppure usa il calcolatore dei prezzi di Azure.
Definito in modo flessibile È possibile definire l'ambito di una prenotazione per coprire un singolo gruppo di risorse o sottoscrizione, un gruppo di sottoscrizioni in un gruppo di gestione o tutte le sottoscrizioni in un account di fatturazione. Tutte le distribuzioni corrispondenti nell’ambito di copertura beneficiano dello sconto, fino al quantitativo di PTU della prenotazione. Consulta Come funziona la corrispondenza delle prenotazioni.
Sovrapposte e aggiornabili È possibile acquistare nuove prenotazioni per coprire lo stesso ambito delle prenotazioni esistenti, consentendoti di applicare lo sconto alle nuove distribuzioni di cui è stato effettuato il provisioning. L'ambito delle prenotazioni esistenti può essere aggiornato in qualsiasi momento senza penalità. Ad esempio, è possibile aggiornare l'ambito della prenotazione esistente per coprire una nuova sottoscrizione.
Indipendente dal modello Lo sconto per la prenotazione si applica a qualsiasi modello supportato distribuito nell'ambito corrispondente. Non si acquista una prenotazione per un modello specifico. Quando si aggiunge un nuovo modello al portafoglio di distribuzione, la prenotazione esistente lo copre automaticamente se rientra nell'ambito previsto.
Attivo immediatamente Lo sconto per la prenotazione si applica alle distribuzioni corrispondenti non appena la prenotazione entra nello stato Attivo dopo l'acquisto. Non c'è ritardo tra l'attivazione degli acquisti e lo sconto.
L'eccesso viene fatturato ogni ora Se i PTU distribuiti nell'ambito superano la quantità di prenotazioni, i PTU in eccesso vengono addebitati alla tariffa oraria standard. Vedere Esempio di eccedenza della prenotazione.
Le prenotazioni non garantiscono la capacità L'acquisto di una prenotazione non riserva capacità nel servizio. Create prima le distribuzioni per verificare che la capacità sia disponibile, quindi acquistate la prenotazione.
Annullabile, con limiti Le prenotazioni possono essere annullate o scambiate dopo l'acquisto, ma tali azioni potrebbero comportare tariffe. Per altre informazioni, vedere Regolare le prenotazioni man mano che il carico di lavoro cambia .

Per verificare che le distribuzioni esistenti siano coperte dopo aver acquistato una prenotazione, consulta Verifica che le distribuzioni esistenti siano coperte.

Come funziona l'abbinamento delle prenotazioni

Lo sconto per la prenotazione si applica automaticamente quando tutte e tre le condizioni corrispondono tra una distribuzione in esecuzione e una prenotazione:

  • Tipo di distribuzione: il tipo di distribuzione (globale, zona dati o area geografica) deve corrispondere.
  • Region: l'area Azure della distribuzione deve corrispondere.
  • Ambito: l'ambito della prenotazione deve includere la sottoscrizione o il gruppo di risorse della distribuzione.

La corrispondenza non avviene in base al modello o all'ID di distribuzione. Le distribuzioni multiple che soddisfano tutte e tre le condizioni condividono la stessa prenotazione fino alla relativa quantità di PTU.

Esempio di eccedenza della prenotazione

Supponiamo di avere una prenotazione di provisioning globale da 500 PTU in East US 2 per una specifica sottoscrizione. Le distribuzioni esistenti consumano 300 PTU nei modelli di Azure OpenAI. Si aggiunge quindi una distribuzione DeepSeek-R1:

PTU di DeepSeek aggiunte Incluso nella prenotazione Eccedenza oraria
200 PTUs Tutti i 200 (200 PTU rimanenti nella prenotazione) Nessuno: totale PTU utilizzate = 500
300 PTU 200 (riserva esaurita su un totale di 500) 100 PTU fatturati ogni ora fino a quando le dimensioni della distribuzione non vengono ridotte a 500 PTU o viene creata una nuova prenotazione per coprire i rimanenti 100.

Lo sconto viene ripartito automaticamente tra tutti i modelli inclusi. Non si riconfigura la prenotazione quando si aggiunge un nuovo modello.

Importante

I requisiti relativi al ruolo di Azure e ai criteri del tenant necessari per acquistare una prenotazione differiscono da quelli richiesti per creare una distribuzione o una risorsa di Foundry. Verificare l'autorizzazione per acquistare prenotazioni prima di eseguire questa operazione. Vedere Prenotazioni di velocità effettiva con provisioning di Foundry per i requisiti dei ruoli e i passaggi di acquisto.

Per acquistare o gestire le prenotazioni, passare alla pagina Reservations nel portale di Azure.

Per indicazioni sul numero di PTU da includere in una prenotazione, vedere Ridimensionare la prenotazione della velocità effettiva con provisioning di Foundry.

Determinare la prenotazione della capacità fornita da Foundry

La quantità di PTU in un acquisto tramite prenotazione è indipendente dall'allocazione della tua quota e dalle PTU usate nelle tue distribuzioni attuali. È possibile acquistare una prenotazione per un numero minimo o uguale a quello desiderato, ma solo le UNITÀ PTU distribuite che rientrano nell'ambito della prenotazione ricevono lo sconto. Per proteggersi dall'over-purchasing:

  • Creare le distribuzioni prima di acquistare una prenotazione: questo conferma che la capacità è disponibile per la regione e il modello desiderati. L'acquisto di una prenotazione prima della distribuzione comporta il rischio di vincolarsi a PTU che non è possibile utilizzare.
  • Associare la quantità di prenotazioni alle UNITÀ PTU distribuite: allineare le dimensioni della prenotazione alle UNITÀ PTU attualmente distribuite nell'ambito della prenotazione. Le PTU comprese nell'ambito che eccedono la quantità prenotata sono addebitate alla tariffa oraria. Vedi Esempio di prenotazione in eccesso.
  • Acquistare prenotazioni separate per tipo di distribuzione: le prenotazioni per le distribuzioni globali, zona dati e area geografica non sono intercambiabili.
  • Usare l'ambito per coprire più distribuzioni: è possibile acquistare nuove prenotazioni per coprire distribuzioni aggiuntive nello stesso ambito. È anche possibile aggiornare l'ambito di una prenotazione esistente in qualsiasi momento senza penalità.

Acquistare una prenotazione

Dopo aver distribuito le risorse e aver determinato la quantità di PTU necessaria, acquista la prenotazione dalla pagina Prenotazioni nel portale di Azure.

Per istruzioni dettagliate su come acquistare e gestire le prenotazioni di throughput con provisioning di Foundry (inclusi i requisiti del ruolo, la selezione dell'ambito e le opzioni di durata), vedere Risparmiare sui costi con le prenotazioni di throughput con provisioning di Microsoft Foundry.

Monitora la prenotazione e l'utilizzo delle PTU

Il monitoraggio dell'utilizzo delle prenotazioni consente di identificare il provisioning eccessivo, rilevare la fatturazione imprevista e pianificare le esigenze future di capacità.

Tenere traccia dell'utilizzo e dei costi delle prenotazioni

Usare queste risorse Gestione dei costi Microsoft per tenere traccia e analizzare l'utilizzo della prenotazione:

Cosa vuoi fare Articolo
Scopri quale percentuale delle PTU riservate è effettivamente in uso nelle tue distribuzioni Visualizza l'utilizzo delle prenotazioni di Azure
Esaminare la cronologia degli acquisti e qualsiasi attività di rimborso Visualizza le transazioni di acquisto e rimborso delle prenotazioni di Azure
Comprendere l'impatto sui costi ammortizzati delle prenotazioni per ottenere una visibilità più chiara della fatturazione per distribuzione Visualizzare i costi dei benefici ammortizzati
Distribuire i costi di prenotazione tra team o progetti per l'attribuzione dei costi interni Riaddebita i costi delle prenotazioni Azure
Configurare il rinnovo automatico per impedire la scadenza della prenotazione e mantenere la tariffa scontata Rinnovare automaticamente le prenotazioni Azure

Verifica che le distribuzioni siano coperte

Per verificare che le distribuzioni di cui è stato eseguito il provisioning siano interamente coperte da una prenotazione, utilizzare la pagina Prenotazioni nel portale di Azure:

  1. Aprire la pagina Prenotazioni e selezionare una prenotazione per visualizzarne i dettagli.

  2. Esaminare il valore Utilizzo (%) :

    • 100%: L'intera quantità prenotata viene utilizzata dalle distribuzioni corrispondenti; non rimane inutilizzato alcun PTU riservato.
    • Sotto 100%: alcune PTU riservate non corrispondono a una distribuzione in esecuzione. Ciò può significare un acquisto in eccesso oppure che una distribuzione è stata eliminata senza annullare la prenotazione.
  3. Riferimento incrociato con le UR distribuite. La riserva copre tutte le distribuzioni corrispondenti comprese nell'ambito fino alla quantità di PTU. Tutti i PTU distribuiti oltre tale quantità vengono fatturati alla tariffa oraria. Vedi Come funziona la corrispondenza delle prenotazioni e Esempio di eccedenza nelle prenotazioni.

Per una suddivisione per singola distribuzione delle tendenze di copertura e di utilizzo, vedere Visualizzare l'utilizzo delle prenotazioni di Azure.

Modificare le prenotazioni man mano che cambia il carico di lavoro

Tutte le prenotazioni vengono gestite dalla pagina Reservations nel portale di Azure. Man mano che le dimensioni della distribuzione di cui è stato effettuato il provisioning aumentano o diminuiscono, ecco alcuni modi per adeguare le prenotazioni:

  • Aggiungi copertura: acquista una prenotazione aggiuntiva per lo stesso ambito per coprire le nuove distribuzioni.

  • Copertura di annullamento: Annulla una prenotazione nel portale di Azure. Gli annullamenti potrebbero comportare una tariffa di terminazione anticipata. Vedi Cambi e rimborsi per le prenotazioni di Azure per le condizioni di cancellazione e le eventuali commissioni applicabili.

  • Copertura di scambio: Scambia una prenotazione nel portale di Azure per modificarne la durata o il numero di PTU. Gli scambi reimpostano il periodo di prenotazione. Poiché le prenotazioni PTU sono definite per tipo di distribuzione, gli scambi tra tipi di distribuzione (ad esempio, da Provisioned globale a Provisioned regionale) non sono supportati. Per spostare la copertura in un tipo di distribuzione o un'area diversa, annullare la prenotazione esistente e acquistarne una nuova per il tipo di destinazione e l'area. Vedi Cambi e rimborsi per le prenotazioni di Azure per i dettagli sull'idoneità e sulle tariffe.

  • Ambito di aggiornamento: modificare l'ambito di una prenotazione esistente in qualsiasi momento senza penalità. Ad esempio, per estendere la copertura a una nuova sottoscrizione. Vedi Modificare l'ambito per una prenotazione.

  • Disabilitare il rinnovo automatico: se non è più necessaria una prenotazione, disattivare il rinnovo automatico per impedirne il rinnovo alla fine del periodo. Vedi Rinnovare automaticamente le prenotazioni di Azure.