Monitorare l'utilizzo per gli endpoint del Gateway di Intelligenza Artificiale Unity

Importante

Questa funzionalità è in versione beta. Gli amministratori dell'account possono controllare l'accesso a questa funzionalità dalla pagina Anteprime della console dell'account. Consultare Gestisci anteprime Azure Databricks.

Questa pagina descrive come monitorare l'utilizzo per gli endpoint del gateway di intelligenza artificiale Unity usando la tabella del sistema di rilevamento dell'utilizzo.

La tabella di rilevamento dell'utilizzo acquisisce automaticamente i dettagli della richiesta e della risposta per un endpoint, registrando metriche essenziali come l'utilizzo dei token e la latenza. È possibile usare i dati in questa tabella per monitorare l'utilizzo, tenere traccia dei costi e ottenere informazioni dettagliate sulle prestazioni e sull'utilizzo degli endpoint.

Il rilevamento dell'utilizzo registra anche le richieste agli endpoint forniti da Databricks ai_query.

Requisiti

Anteprima del Gateway di Intelligenza Artificiale Unity abilitata per l'account. Consultare Gestisci anteprime Azure Databricks.
Un'area di lavoro Azure Databricks in un'area Unity AI Gateway supportata.
Catalogo Unity abilitato per l'area di lavoro. Vedere Abilitare un'area di lavoro per il Catalogo Unity.

Eseguire una query sulla tabella di utilizzo

Unity AI Gateway registra i dati di utilizzo nella tabella sistema system.ai_gateway.usage. È possibile visualizzare la tabella nell'interfaccia utente oppure eseguire query sulla tabella da Databricks SQL o da un notebook.

Annotazioni

Solo gli amministratori dell'account dispongono dell'autorizzazione per visualizzare o eseguire query sulla system.ai_gateway.usage tabella.

Per visualizzare la tabella nell'interfaccia utente, fare clic sul collegamento tabella di rilevamento dell'utilizzo nella pagina dell'endpoint per aprire la tabella in Esplora cataloghi.

Per eseguire query sulla tabella da Databricks SQL o da un notebook:

SELECT * FROM system.ai_gateway.usage;

Dashboard di utilizzo integrata

Creare un dashboard di utilizzo predefinito

Gli amministratori degli account possono creare un dashboard di utilizzo predefinito del gateway di intelligenza artificiale unity facendo clic su Crea dashboard nella pagina Gateway di intelligenza artificiale per monitorare l'utilizzo, tenere traccia dei costi e ottenere informazioni dettagliate sulle prestazioni e sull'utilizzo degli endpoint. Gli amministratori dell'account possono anche aggiornare il data warehouse utilizzato per eseguire le query del dashboard, che si applicano a tutte le query successive.

Crea dashboard pulsante

Annotazioni

La creazione del dashboard è limitata agli amministratori dell'account perché richiede SELECT autorizzazioni per la system.ai_gateway.usage tabella. I dati del dashboard sono soggetti ai usage criteri di conservazione della tabella. Consulta Quali tabelle di sistema sono disponibili?.

Quando è disponibile una versione più recente del dashboard di utilizzo predefinito, gli amministratori dell'account possono fare clic su Aggiorna dal menu azioni del dashboard nella pagina Gateway di intelligenza artificiale.

Finestra di dialogo del dashboard degli aggiornamenti di ai-gateway

Per gestire il dashboard, è possibile usare le opzioni di configurazione del dashboard seguenti:

Ambito: selezionare se definire l'ambito del dashboard nell'account o nell'area di lavoro.
Autorizzazioni: scegliere se le query vengono eseguite usando le autorizzazioni del proprietario del dashboard o le autorizzazioni di ogni visualizzatore. Vedere Che cosa sono le autorizzazioni per i dati condivisi?.
Aggiornamenti automatici: quando si abilita questa opzione, il dashboard viene aggiornato automaticamente ogni volta che diventa disponibile una versione più recente e un amministratore account visita la pagina gateway di intelligenza artificiale.

Opzioni del dashboard di aggiornamento di ai-gateway

Quando il dashboard viene aggiornato alla versione 0.3 o successiva, viene creata automaticamente una pianificazione per aggiornare il dashboard ogni 6 ore. Se necessario, questa pianificazione può essere disabilitata nel dashboard di Lakeview. Vedere Creare una pianificazione.

Visualizzare il dashboard di utilizzo

Per visualizzare il dashboard, fare clic su Visualizza dashboard nella pagina Gateway di intelligenza artificiale. Il dashboard predefinito offre visibilità completa sull'utilizzo, sulle prestazioni e sui costi degli endpoint del gateway di intelligenza artificiale unity. Include più pagine che monitora le richieste, il consumo di token, le metriche di latenza, le percentuali di errore, i dettagli dei costi, il traffico del server MCP esterno e l'attività dell'agente di codifica.

Visualizza pulsante dashboard

Dashboard di utilizzo di ai-gateway

Il dashboard fornisce l'analisi tra aree di lavoro per impostazione predefinita. Tutte le pagine del dashboard possono essere filtrate in base all'intervallo di date e all'ID dell'area di lavoro.

Scheda Panoramica: mostra le metriche di utilizzo di alto livello, tra cui il volume delle richieste giornaliere, le tendenze di utilizzo dei token nel tempo, i principali utenti per consumo di token e il numero totale di utenti univoci. Usare questa scheda per ottenere uno snapshot rapido dell'attività complessiva di Unity AI Gateway e identificare gli utenti e i modelli più attivi.
Scheda Prestazioni: tiene traccia delle metriche delle prestazioni chiave, inclusi i percentili di latenza (P50, P90, P95, P99), il tempo per il primo byte, le percentuali di errore e le distribuzioni del codice di stato HTTP. Usare questa scheda per monitorare l'integrità degli endpoint e identificare i colli di bottiglia o i problemi di affidabilità delle prestazioni.
Scheda Utilizzo: mostra le suddivisioni dettagliate del consumo per endpoint, area di lavoro e richiedente. Questa scheda mostra i modelli di utilizzo dei token, le distribuzioni delle richieste e i rapporti di riscontri nella cache.
Scheda Osservabilità dei costi: mostra le suddivisioni dei costi per endpoint, modello di destinazione, utente, tag endpoint e tag di richiesta. Questa scheda include anche il costo stimato per i modelli esterni. Vedi Monitorare il costo del Gateway AI di Unity.
Scheda Server MCP esterno: mostra il volume delle richieste, le percentuali di errore, gli utenti e le connessioni e le tendenze di utilizzo giornaliere per il traffico del server MCP esterno.
Scheda Codifica agenti: tiene traccia dell'attività degli agenti di codifica integrati, tra cui Cursor, Claude Code, Gemini CLI e Codex CLI. Questa scheda mostra metriche come i giorni attivi, le sessioni di codifica, i commit e le righe di codice aggiunti o rimossi per monitorare l'utilizzo degli strumenti di sviluppo. Per altri dettagli, vedere Dashboard dell'agente di codifica .

Schema della tabella di utilizzo

La system.ai_gateway.usage tabella presenta lo schema seguente:

Nome della colonna	TIPO	Descrzione	Example
`account_id`	filo	ID dell'account.	`11d77e21-5e05-4196-af72-423257f74974`
`workspace_id`	filo	L’ID dell’area di lavoro.	`1653573648247579`
`request_id`	filo	Identificatore univoco per la richiesta.	`b4a47a30-0e18-4ae3-9a7f-29bcb07e0f00`
`schema_version`	INTEGER	Versione dello schema del record di utilizzo.	`1`
`endpoint_id`	filo	ID univoco dell'endpoint del gateway di Intelligenza Artificiale Unity.	`43addf89-d802-3ca2-bd54-fe4d2a60d58a`
`endpoint_name`	filo	Nome dell'endpoint del gateway di intelligenza artificiale Unity.	`databricks-gpt-5-2`
`endpoint_tags`	MAP	Tag configurati nell'endpoint in fase di creazione o aggiornamento. I tag endpoint si applicano a tutte le richieste all'endpoint e sono utili per la categorizzazione degli endpoint in base al team, al centro di costo o al progetto. Vedi Tag di richieste ed endpoint per il monitoraggio dell'utilizzo.	`{"team": "engineering"}`
`endpoint_metadata`	STRUCT	Metadati dell'endpoint, tra cui `creator`, `creation_time`, `last_updated_time`, `destinations`, `inference_table` e `fallbacks`.	`{"creator": "user.name@email.com", "creation_time": "2026-01-06T12:00:00.000Z", ...}`
`event_time`	TIMESTAMP	Timestamp in cui è stata ricevuta la richiesta.	`2026-01-20T19:48:08.000+00:00`
`latency_ms`	LONG	Latenza totale in millisecondi.	`300`
`time_to_first_byte_ms`	LONG	Tempo di primo byte in millisecondi.	`300`
`destination_type`	filo	Tipo di destinazione, ad esempio modello esterno o modello di base.	`PAY_PER_TOKEN_FOUNDATION_MODEL`
`destination_name`	filo	Nome del modello o del provider di destinazione.	`databricks-gpt-5-2`
`destination_id`	filo	ID univoco della destinazione.	`507e7456151b3cc89e05ff48161efb87`
`destination_model`	filo	Modello specifico utilizzato per la richiesta.	`GPT-5.2`
`requester`	filo	ID dell'utente o dell'entità servizio che ha effettuato la richiesta.	`user.name@email.com`
`requester_type`	filo	Tipo di richiedente (utente, entità servizio o gruppo di utenti).	`USER`
`ip_address`	filo	Indirizzo IP del richiedente.	`1.2.3.4`
`url`	filo	URL della richiesta.	`https://<workspace-url>/ai-gateway/mlflow/v1/chat/completions`
`user_agent`	filo	Agente utente del richiedente.	`OpenAI/Python 2.13.0`
`api_type`	filo	Tipo di chiamata API (ad esempio, chat, completamenti o incorporamenti).	`mlflow/v1/chat/completions`
`request_tags`	MAP	Tag forniti dall'utente inviati con singole richieste usando l'intestazione `Databricks-Ai-Gateway-Request-Tags` HTTP. Usare i tag di richiesta per attribuire l'utilizzo a progetti, team, ambienti o utenti finali specifici. Vedi Etichetta le richieste e gli endpoint per il monitoraggio dell'utilizzo e Etichetta le richieste per il monitoraggio dell'utilizzo.	`{"project": "chatbot", "team": "ml-platform"}`
`input_tokens`	LONG	Numero di token di input.	`100`
`output_tokens`	LONG	Numero di token in uscita.	`100`
`total_tokens`	LONG	Numero totale di token (input e output).	`200`
`token_details`	STRUCT	Suddivisione dettagliata dei token, tra cui `cache_read_input_tokens`, `cache_creation_input_tokens`e `output_reasoning_tokens`.	`{"cache_read_input_tokens": 100, ...}`
`response_content_type`	filo	Tipo di contenuto della risposta.	`application/json`
`status_code`	INT	Il codice di stato HTTP della risposta.	`200`
`routing_information`	STRUCT	Dettagli del routing per i tentativi di fallback . Contiene una `attempts` matrice con `priority`, `actiondestination`, `destination_id`, `status_code`, `error_codelatency_ms`, , , `start_time`, e `end_time` per ogni modello provato durante la richiesta.	`{"attempts": [{"priority": "1", ...}]}`

Etichetta le richieste e gli endpoint per il monitoraggio dell'utilizzo

Il gateway di intelligenza artificiale supporta due tipi di tag per il rilevamento e l'attribuzione dell'utilizzo:

Tag di richiesta: coppie chiave-valore personalizzate associate dal chiamante alle singole richieste. Usare i tag di richiesta per attribuire l'utilizzo da parte di progetto, team, ambiente, utente finale o qualsiasi altra dimensione pertinente all'organizzazione.
Tag endpoint: coppie chiave-valore configurate nell'endpoint stesso. I tag degli endpoint si applicano a tutte le richieste indirizzate tramite l'endpoint e sono utili per la categorizzazione degli endpoint in base al team, al centro di costo o all'applicazione.

Entrambi i tipi di tag vengono registrati nella system.ai_gateway.usage tabella e possono essere usati per filtrare, aggregare e analizzare i dati di utilizzo.

Etichette della richiesta

Per etichettare le singole richieste, includere l'intestazione HTTP Databricks-Ai-Gateway-Request-Tags con un oggetto JSON che contiene una mappatura di chiavi di tipo stringa a valori di tipo stringa. I tag di richiesta vengono registrati nella request_tags colonna nella tabella di utilizzo e nelle tabelle di inferenza.

Per esempi che illustrano come impostare i tag di richiesta con l'API REST, OpenAI SDK e Anthropic SDK, vedere richieste Tag per il rilevamento dell'utilizzo.

Ad esempio, è possibile aggregare l'utilizzo in base al progetto usando i tag di richiesta:

SELECT
  request_tags['project'] AS project,
  COUNT(*) AS request_count,
  SUM(total_tokens) AS total_tokens
FROM system.ai_gateway.usage
WHERE request_tags['project'] IS NOT NULL
GROUP BY request_tags['project']
ORDER BY total_tokens DESC;

Tag dell'endpoint

I tag endpoint vengono configurati durante la creazione o l'aggiornamento di un endpoint del gateway di intelligenza artificiale. Vengono visualizzate nella endpoint_tags colonna della tabella di utilizzo per tutte le richieste a tale endpoint.

Ad esempio, è possibile aggregare l'utilizzo in base al team usando i tag endpoint:

SELECT
  endpoint_tags['team'] AS team,
  endpoint_name,
  COUNT(*) AS request_count,
  SUM(total_tokens) AS total_tokens
FROM system.ai_gateway.usage
WHERE endpoint_tags['team'] IS NOT NULL
GROUP BY endpoint_tags['team'], endpoint_name
ORDER BY total_tokens DESC;

Passaggi successivi

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-06-01