Scelta dell'agente ospitante

Quando valutate qualità operativa, affidabilità e costi, considerate la scelta dell'host agente, come ad esempio Microsoft 365 Copilot (agenti dichiarativi), Copilot Studio (agenti personalizzati) o Azure. Mantieni questa decisione separata dal metodo di creazione dell'agente. Dove un agente viene eseguito o ospitato determina le sue capacità di orchestrazione, l'accesso al modello e le funzionalità operative. Queste funzionalità influiscono direttamente sulla qualità della risposta, sulle prestazioni e sui costi per gestire la soluzione su larga scala.

Questo articolo spiega come le piattaforme host agenti influenzano le capacità della soluzione. Si apprenderà come i diversi metodi di creazione possono creare agenti nella stessa piattaforma host mantenendo al tempo stesso qualità e comportamento coerenti, come un singolo metodo di creazione può creare agenti su piattaforme diverse con risultati di qualità e comportamento diversi e come l'host modella il profilo di costo della soluzione.

Costo come considerazione per l'operabilità

Considerare i costi come una caratteristica operativa a stato stabile, non una domanda di approvvigionamento monouso. Due soluzioni possono produrre risposte identiche mentre differiscono in base a un ordine di grandezza in termini di costi, perché il costo è determinato dal modo in cui viene eseguito l'agente, non solo da ciò che restituisce. La piattaforma host corregge in gran parte le leve disponibili per l'utente:

  • Consumo di token per interazione. Ogni istruzione, frammento di conoscenza e definizione di strumento che il modello elabora in un determinato turno viene addebitato in quel turno. Il contesto permanente che viene caricato su ogni interazione viene pagato a ogni interazione, indipendentemente dal fatto che sia rilevante o meno.
  • Numero di iterazioni del modello. L'orchestratore decide quante volte il modello viene invocato per completare un'attività. Più iterazioni di chiamata degli strumenti e più ripianificazione significano maggiore inferenza.
  • Selezione del modello. I modelli di ragionamento più grandi costano di più per token e aggiungono latenza. L'host determina quali modelli sono disponibili e se è possibile instradare passaggi diversi a modelli diversi.
  • Determinismo. Il lavoro deterministico non richiede affatto l'inferenza del modello. Spostarlo nel codice o nelle azioni rimuove sia il costo del token che la variabilità.

Le sezioni seguenti analizzano nel dettaglio i controlli che influiscono maggiormente sui costi: il framework di orchestrazione, la scelta del modello e il modo in cui si strutturano le istruzioni rispetto all'uso di azioni deterministiche.

Hosting di Microsoft 365 Copilot

Microsoft 365 Copilot fornisce un ambiente di hosting gestito per agenti dichiarativi con funzionalità predefinite di governance, sicurezza e conformità. Questa piattaforma offre caratteristiche di performance coerenti indipendentemente dal metodo di authoring che si utilizza per creare l'agente.

Ad esempio, è possibile creare agenti dichiarativi usando la funzionalità Agent Builder in Microsoft 365 Copilot, Copilot Studio o Microsoft 365 Agents Toolkit. L'host agente determina le opzioni di orchestrazione, catalogo e modello linguistico disponibili per lo sviluppatore. Queste opzioni sono i maggiori fattori di determinazione della qualità delle risposte. Le piattaforme di creazione dovrebbero essere il criterio secondario per una soluzione in fase di regime operativo.

Diverse piattaforme di creazione offrono vari livelli di capacità operative adatte alle esigenze organizzative e alle diverse fasi del ciclo di sviluppo. Finché l’agente sottostante continua a essere Microsoft 365 Copilot (agenti dichiarativi), la qualità rimane uniforme mentre si procede attraverso i vari canvas di authoring necessari a coprire le esigenze operative.

La tabella seguente riassume le considerazioni su quale piattaforma di authoring utilizzare per agenti dichiarativi come esempio illustrativo.

Requisito Funzionalità Generatore di agenti in Copilot Copilot Studio Codice Pro
Proprietario della soluzione Individuale Gruppo Enterprise
Aggiornamento e manutenzione Nessun controllo delle versioni Controllo delle versioni con modifica bloccata Controllo delle versioni con modifica contemporanea
Quadro di valutazione Panel di prova Pannello di prova e codice Pro Completamente personalizzabile
CI/CD Nessuno Some
Monitoraggio in tempo reale Nessuno Nessuno
Telemetry Limited Some Completamente personalizzabile
Costo/ritorno sull'investimento Incluso con Microsoft 365 Copilot Va dalla licenza al consumo Completamente personalizzabile in base alle scelte di pro-code
Costo di consumo di Work IQ Grounding di Work IQ incluso nella licenza di Microsoft 365 Copilot; gli utenti senza licenza vengono fatturati in base al consumo Crediti Copilot basati sul consumo (pagamento in base al consumo o prepagati) Basato sul consumo tramite i Crediti Copilot con le API di Work IQ; misurati e soggetti a limiti nell'interfaccia di amministrazione di Microsoft 365

Ad esempio, quando un agente si avvale di Work IQ per ottenere contesto, recuperare informazioni o eseguire azioni, tale utilizzo viene fatturato in modo variabile, con un costo in crediti che varia in base alla complessità dello scenario, inclusi la dimensione del contesto, la profondità del ragionamento e il numero di passaggi.

Note

Non esiste un abbonamento, uno SKU o una licenza per utente separati per Work IQ. Poiché i costi di chat e contesto sono variabili, due agenti simili a livello funzionale possono utilizzare volumi di credito molto diversi a seconda del contesto in cui si trovano e della quantità di ragionamento a più passaggi che eseguono. Usare il dashboard di gestione dei costi nella interfaccia di amministrazione di Microsoft 365 per monitorare l'utilizzo del credito e impostare i limiti di spesa per tenant, gruppi e utenti. Ciò rende gli schemi di ottimizzazione dei costi illustrati in Progettare per l'ottimizzazione dei costi — ridurre al minimo il contesto sempre attivo e spostare il lavoro deterministico in script e azioni — direttamente rilevanti per controllare la spesa per Work IQ.

Considera altri fattori come il carico degli sviluppatori e strumenti di debug (non mostrati nella tabella). Tieni presente che questi fattori sono fortemente influenzati dalla postura di sicurezza della tua organizzazione e dalla sua capacità di gestire una particolare piattaforma di sviluppo.

Promuovere gli agenti dichiarativi di Microsoft 365 Copilot creati in Agent Builder a un agente dichiarativo sviluppato con Microsoft 365 Agents Toolkit. Questa strategia mantiene Microsoft 365 Copilot come agente di orchestrazione per garantire un comportamento coerente dell'agente. Se un agente personalizzato sperimentale sviluppato in Copilot Studio soddisfa i criteri di valutazione della prova di concetto e il controllo del codice sorgente è necessario per le operazioni aziendali, si promuova l'agente a un pipeline gestito in Power Platform. Questo approccio garantisce che l'agente di orchestrazione di Copilot Studio rimanga il meccanismo principale per la gestione del comportamento dell'agente.

Orchestrazione e cablaggio dell'agente

L'agente di orchestrazione, o harness, è il ciclo di runtime che pianifica i passaggi, seleziona e richiama gli strumenti, gestisce la finestra di contesto e decide quando un'attività è stata completata. Si tratta del singolo driver più grande sia della qualità della risposta che del costo operativo, perché controlla il numero di turni del modello, la quantità di contesti accumulati a ogni turno e il modo in cui i risultati degli strumenti vengono reintrodati nel modello.

Poiché la piattaforma ospitante fornisce l'orchestratore, la scelta dell'host determina in larga misura i limiti di costo e latenza:

  • Microsoft 365 Copilot fornisce un agente di orchestrazione gestito. Si ottengono un costo prevedibile, con licenza inclusa, e un comportamento coerente, con un controllo limitato sul ciclo stesso.
  • Copilot Studio fornisce orchestrazione configurabile, ad esempio argomenti e orchestrazione generativa. I costi variano da un modello basato su licenza a uno basato sul consumo, a seconda della quantità di lavoro generativo che si delega al modello.
  • Azure e pro-code offrono il controllo completo sul ciclo. Valutare il costo della manutenzione del codice rispetto all'impiego di un framework o di un SDK ben mantenuti, come il Copilot SDK.

Quando l'host le espone, le leve di orchestrazione della chiave sono:

  • Budget dei turni. Impostare un limite o regolare il numero di iterazioni di pianificazione e di chiamata agli strumenti che l'orchestratore può eseguire prima di restituire una risposta.
  • Chiamate per strumenti paralleli vs sequenziali. L'esecuzione di chiamate di strumenti indipendenti contemporaneamente riduce la latenza; consolidarli riduce i turni.
  • Gestione del contesto. La riduzione, il riepilogo o la suddivisione della conversazione in finestre impediscono che il contesto cresca senza limiti, mantenendo costante il costo in token per turno anziché farlo aumentare in modo cumulativo.
  • Memorizzazione nella cache. Il riutilizzo dei prefissi dei prompt memorizzati nella cache tra turni o sessioni evita la ri-fatturazione per un contesto stabile.

Note

Un agente di orchestrazione più capace può aumentare la qualità e i costi contemporaneamente. Adatta il livello di sofisticazione dell'orchestrazione all'attività: un semplice agente di consultazione non richiede una pianificazione generativa in più fasi e pagarla fa aumentare i costi senza migliorare i risultati.

Scelta del modello

Il modello scelto influisce sul costo e la latenza per token ed è in gran parte indipendente dal metodo di creazione. I modelli di ragionamento più grandi offrono risultati di qualità superiore su attività complesse, ma costano più per token e rispondono più lentamente. Abbina il modello alla difficoltà dell'attività invece di scegliere automaticamente l'opzione più potente per ogni attività.

Progetta il routing del modello quando l'host lo supporta:

  • Riservare modelli di ragionamento di frontiera per passi veramente difficili, come ragionamento ambiguo, sintesi o generazione aperta.
  • Instradare sottoattività deterministiche o semplici, come la classificazione, l'estrazione, la formattazione e le decisioni di instradamento, a modelli più piccoli, più economici e più veloci.
  • Combina modelli in un singolo agente quando l'orchestratore supporta la selezione del modello per fase, così ogni fase paga solo per la capacità di cui ha bisogno.

La piattaforma host determina quali modelli si trovano nel catalogo, se è possibile instradare per passaggio, la finestra di contesto massima (le finestre più grandi consentono più contesto ma costano di più a turno) e se la memorizzazione nella cache delle richieste è disponibile. Convalidate queste funzionalità nell'ambito della scelta dell'host, perché limitano l'ottimizzazione dei costi a livello di modello che sarà possibile effettuare in seguito.

Progettazione per l'ottimizzazione dei costi

Oltre a scegliere un host, un agente di orchestrazione e un modello, la struttura delle istruzioni e delle azioni di un agente ha un impatto diretto e ricorrente sui costi. Due principi guidano la progettazione conveniente:

  1. Non pagare l'inferenza del modello per attività deterministiche. Aggregare azioni deterministiche in script, azioni o connettori anziché descriverli come istruzioni in linguaggio naturale che il modello deve interpretare in ogni esecuzione. Il codice viene eseguito una sola volta, a basso costo, con output prevedibile e senza costi o variabilità dei token. Il ragionamento attraverso la stessa procedura nel linguaggio naturale paga l'inferenza ogni volta con il rischio di risultati incoerenti.

  2. Non pagare il costo fisso dei token per istruzioni che usi raramente. Le istruzioni precaricate a livello dell'agente sono addebitate a ogni turno di ogni interazione, anche quando non sono pertinenti alla richiesta dell'utente. Caricare istruzioni e conoscenze su richiesta, solo quando sono pertinenti all'attività, significa pagare quel contesto solo quando viene effettivamente utilizzato, non in modo continuativo. Questo modello di divulgazione progressiva mantiene basso il costo previsto di ogni interazione.

La tabella seguente riepiloga quando precaricare le istruzioni nell’agent e quando invece demandare il lavoro a script deterministici o a risorse su richiesta.

Carica in anticipo le istruzioni dell'agente quando... Usare script, azioni o risorse su richiesta quando...
Il comportamento si applica a quasi tutte le interazioni (ruolo principale, tono, guardie di sicurezza). Il comportamento è specifico dell'attività o solo occasionalmente rilevante.
Le linee guida sono brevi e sempre rilevanti. Le indicazioni sono lunghe o supportate da un ampio materiale di riferimento o conoscitivo.
Il modello deve effettivamente ragionare o adattare il comportamento. L'azione è deterministica, ripetibile e ha un output ben definito.
La latenza di una chiamata di recupero o strumento aggiuntiva potrebbe danneggiare l'esperienza. Il costo in token di mantenere il contesto a ogni turno supera quello di un caricamento occasionale.

In pratica, un agente efficiente in termini di costi mantiene al minimo le proprie istruzioni sempre attive e le concentra su identità e sicurezza, esprime le procedure fisse come script o azioni e rende disponibili conoscenze specialistiche e indicazioni specifiche per il compito come risorse su richiesta, caricate solo quando necessario. Il risultato è un costo inferiore per ogni token di interazione, un comportamento più prevedibile e un prompt dei core più piccolo e più semplice da gestire, senza sacrificare la funzionalità.

Passo successivo

Impara a misurare la qualità degli agenti, validare le prestazioni in diversi scenari e garantire la prontezza operativa prima del dispiegamento utilizzando i framework di valutazione.