Testare e monitorare uno spazio Genie

Testare uno spazio Genie con domande reali, rivedere l'SQL generato e le visualizzazioni, modificare le risposte quando Genie sbaglia e monitorare l'utilizzo dello spazio e il feedback degli utenti in modo da mantenere lo spazio affidabile man mano che i dati e le domande si evolvono. Usare i benchmark per assegnare punteggi all'accuratezza della risposta su larga scala.

Testa il tuo spazio Genie

La maggior parte delle interazioni utente avviene nella finestra di chat. Il modo migliore per imparare se lo spazio funziona come si vuole è testarlo con domande realistiche che si prevede che gli utenti aziendali chieda.

Nuova finestra di chat come descritto nel testo seguente.

Le domande di esempio configurate nelle impostazioni dello spazio vengono visualizzate nella finestra della chat. Genie può anche generare domande di esempio in base al contesto dello spazio per aiutare gli utenti a iniziare a esplorare i dati. Gli utenti possono fare clic su una domanda di esempio o immettere le proprie domande nel campo di testo nella parte inferiore della schermata.

Le risposte vengono visualizzate sopra il campo di testo. Dopo che un utente immette una domanda, viene salvato nella cronologia delle chat.

Per avviare una nuova conversazione:

Fare clic su Nuova chat per avviare una nuova chat. Fare clic aprire una conversazione precedente.
Digitare la domanda nel campo Inserisci la domanda… di inserimento testo.

Esaminare le risposte

Le risposte vengono in genere recapitate come risposte in linguaggio naturale alle domande e a una tabella che mostra il set di risultati pertinente. Quando Genie rileva che una visualizzazione potrebbe migliorare la chiarezza della risposta, restituisce anche una visualizzazione. La struttura di risposta precisa varia in base alla domanda. Se è stata generata una query SQL per rispondere alla domanda, viene inclusa nella risposta.

Viene visualizzata una risposta di esempio con visualizzazione, feedback e altre opzioni.

Note

Analogamente ad altri modelli di linguaggio di grandi dimensioni, Genie può presentare comportamenti non deterministici. Ciò significa che è possibile ricevere occasionalmente output diversi quando si invia la stessa richiesta più volte. Fornire query SQL di esempio che Genie possa apprendere può contribuire a rendere Genie più coerente. Vedere Aggiungere query e funzioni SQL di esempio.

Feedback sulla risposta

Ogni risposta chiede all'utente di rispondere È corretto?. Gli utenti possono rispondere in uno dei modi seguenti:

Sì: Conferma che la risposta appare accurata.
Correggerlo: Contrassegna la risposta come errata. Gli utenti possono scegliere tra problemi comuni o immettere la propria spiegazione. Possono quindi:
- Fare clic su Invia e riprovare per rigenerare la risposta usando il feedback fornito.
- Fare clic su Invia per inviare il feedback senza rigenerare la risposta.
Richiesta di revisione: Contrassegna la risposta per la revisione manuale. Gli utenti possono aggiungere un commento facoltativo per fornire un contesto aggiuntivo.

In qualità di editor, è possibile visualizzare commenti e suggerimenti e risposte contrassegnate nell'interfaccia Genie. Il comportamento di Genie Space non cambia in base al solo feedback degli utenti. È consigliabile usare il feedback per identificare le opportunità di miglioramento o rispondere direttamente alle domande degli utenti. Databricks raccomanda di incoraggiare gli utenti a fornire feedback sullo spazio utilizzando questo meccanismo.

Gli utenti aziendali possono visualizzare gli aggiornamenti alle domande contrassegnate per la revisione nella pagina Monitoraggio . Gli utenti con almeno l'autorizzazione CAN MANAGE per Genie Space possono esaminare lo scambio specifico, commentare la richiesta e confermare o correggere la risposta. Possono accedere ai commenti e suggerimenti ed esaminare le richieste nella pagina di monitoraggio. È quindi possibile usare il feedback per ottimizzare le risposte e perfezionare continuamente il proprio spazio. Vedi Monitorare lo spazio.

Altre azioni di risposta

Per le risposte che includono SQL generato, le opzioni aggiuntive consentono di interagire con i dati restituiti.

Copia CSV: Gli utenti dello spazio possono scaricare fino a 1 GB di dati dei risultati come CSV. Le dimensioni di download del file finale potrebbero essere leggermente superiori o inferiori a 1 GB, perché il limite di 1 GB viene applicato a un passaggio precedente rispetto al download del file finale. Per scaricare i risultati, fare clic sull'icona di download nella risposta.
Mostra codice: Fare clic su Mostra codice per visualizzare la query generata. Ciò può essere utile per la risoluzione dei problemi relativi alle risposte inaffidabili. Vedere Modificare e salvare le query.
Icona del menu kebab: Accedere alle azioni seguenti:
- Copia CSV: copiare il file CSV di risposta negli Appunti.
- Aggiungi come istruzione: Per le interazioni che potrebbero essere utili per insegnare a Genie come rispondere a domande simili, fare clic su Aggiungi come istruzione. Verrà aperta l'interfaccia utente per il salvataggio di query SQL di esempio, popolate con la domanda e il codice SQL generato. È possibile lasciare l'esempio come scritto o modificare e salvare per apportare modifiche. Vedere Aggiungere query e funzioni SQL di esempio.
- Aggiungere come benchmark: aggiungere la domanda come domanda di benchmark. Consultare Benchmarks.
- Aggiornare i dati: aggiornare i dati eseguendo la query generata in precedenza.
- Rigenerare la risposta: inviare di nuovo la domanda e rigenerare la risposta con Genie.

Modificare e salvare le query

Le query SQL di Genie possono essere esaminate per verificare l'accuratezza e modificarle in base alle esigenze. Gli autori di Genie Space in genere conoscono il dominio e i dati che consentono loro di riconoscere quando Genie genera una risposta errata. Spesso, gli errori possono essere corretti con una piccola quantità di aggiustamento manuale per la query SQL generata. Fare clic su Mostra codice generato per esaminare la query e visualizzare sql generato per qualsiasi risposta.

È possibile modificare l'istruzione SQL generata per correggerla se si dispone di privilegi CAN EDIT o maggiori per lo spazio Genie. Dopo aver apportato le correzioni, eseguire la query. Quindi, è possibile salvarlo come un'istruzione per insegnare a Genie come rispondere in futuro. Per salvare la query modificata, fare clic su Aggiungi come istruzione.

Monitorare lo spazio

Uno spazio genie può essere considerato come uno strumento di collaborazione a lungo termine tra i team di dati e gli utenti aziendali. Accumula conoscenze nel tempo anziché fungere da intervento unico. Quando gli utenti chiedono nuove domande, è possibile perfezionare lo spazio per migliorare la copertura e l'accuratezza.

Usare la scheda Monitoraggio per esaminare singole domande e risposte, visualizzare il feedback degli utenti e identificare le risposte contrassegnate per la revisione.

Scheda di monitoraggio di esempio che mostra le funzionalità descritte.

La scheda Monitoraggio mostra tutte le domande e le risposte che sono state poste nello spazio. È possibile filtrare le domande in base al tempo, alla classificazione, all'utente o allo stato. Monitorando lo spazio, gli utenti con autorizzazioni CAN MANAGE possono comprendere in modo proattivo le query generate dagli utenti aziendali e il modo in cui genie Space ha risposto.

Identificare le domande che Genie lotta con può aiutarti ad aggiornare il Genie Space con istruzioni specifiche per migliorare le risposte. Fare clic su una domanda per aprire il testo della domanda e della risposta e visualizzare il thread di chat completo.

Esaminare l'utilizzo e le tendenze

Usare la sezione Digest settimanale della scheda Monitor per esaminare il volume di messaggi settimanali, gli utenti attivi e il feedback positivo/negativo. Per identificare le tendenze di utilizzo principali e i problemi comuni, fare clic su Analizza utilizzo spazio. Verrà avviato genie Code, che analizza i dati di monitoraggio dello spazio e riepiloga i modelli di utilizzo e le aree per il miglioramento. Le risposte di Genie Code includono riferimenti che rimandano alle conversazioni pertinenti nel tuo spazio. Fare clic su una citazione per aprire la conversazione direttamente nel thread Genie Code.

La sezione Digest settimanale della scheda Monitoraggio che mostra messaggi settimanali, utenti e commenti.

Esaminare le conversazioni per la qualità

Importante

Questa funzionalità è in versione beta. Gli amministratori dell'area di lavoro possono controllare l'accesso a questa funzionalità dalla pagina Anteprime . Vedere Gestire le anteprime di Azure Databricks.

Quando una conversazione è impostata su Rivedibile da gestori spazi, gli utenti con l'autorizzazione CAN MANAGE possono aprire la conversazione dalla scheda monitoraggio per esaminare lo scambio completo. In questo modo è possibile valutare la qualità della risposta di Genie, rispondere al feedback degli utenti e identificare le aree in cui istruzioni aggiuntive o query di esempio migliorano l'accuratezza. Per le conversazioni impostate su Privato, i gestori di spazi possono visualizzare le richieste degli utenti nella scheda di monitoraggio, ma non possono visualizzare la conversazione completa o i risultati. Per altre informazioni, vedere Condividere una conversazione.

Note

Le conversazioni create prima dell'abilitazione della versione beta rimangono private. Le conversazioni create dopo che è stata abilitata si impostano di default su Visionabile dai gestori dello spazio.

Benchmark

I benchmark consentono di creare un set di domande di test che è possibile eseguire per valutare l'accuratezza complessiva della risposta di Genie. Un insieme ben progettato di benchmark che copre le domande più frequenti degli utenti aiuta a valutare l'accuratezza dello spazio Genie durante l'affinamento. Ogni Spazio Genie può contenere fino a 500 domande di benchmark.

Le domande di benchmark vengono eseguite come nuove conversazioni. Non hanno lo stesso contesto di una conversazione Genie strutturata. Ogni domanda viene elaborata come nuova query, usando le istruzioni definite nello spazio, incluse le eventuali istruzioni SQL di esempio fornite e le funzioni SQL.

Le domande benchmark supportano due modalità:

Modalità chat: modalità predefinita. Genie valuta l'accuratezza confrontando i risultati generati da SQL con una risposta SQL fornita.
Modalità agente: esegue domande di benchmark usando la stessa motivazione in più passaggi della modalità agente di Genie. Un giudice LLM valuta le risposte. È possibile fornire una nota di valutazione facoltativa per guidare la valutazione.

esempi di benchmark con accuratezza riportata per nove domande.

Aggiungere domande sul benchmark

Le domande di benchmark devono riflettere diversi modi di formulazione delle domande comuni poste dagli utenti. È possibile usarli per controllare la risposta di Genie alle variazioni nelle formulazioni delle domande o in formati di domanda diversi.

Quando si crea una domanda di benchmark, è possibile includere facoltativamente una query SQL il cui set di risultati è la risposta corretta. Durante le esecuzioni del benchmark, l'accuratezza viene valutata confrontando il set di risultati dalla query SQL a quello generato da Genie. È anche possibile usare le funzioni SQL del catalogo Unity come risposte standard gold per i benchmark.

Per aggiungere una domanda di benchmark:

Nella parte superiore dello spazio Genie, fare clic su Benchmark.
Fare clic su Aggiungi benchmark.
Nel campo Domanda immettere una domanda di benchmark da testare.
Selezionare una modalità: Chat o Agente.
- Modalità chat: Genie valuta l'accuratezza confrontando i risultati con una risposta SQL che si fornisce.
- Modalità agente: Genie usa il ragionamento in più passaggi per rispondere alla domanda. Un giudice LLM valuta le risposte.
(solo modalità chat) Fornire una query SQL che risponde alla domanda. È possibile scrivere una query personalizzata digitando nella casella Risposta SQL , incluse le funzioni SQL del catalogo Unity. In alternativa, fare clic su Genera SQL per fare in modo che Genie scriva automaticamente la query SQL. Usare un'istruzione SQL che risponde accuratamente alla domanda immessa.

Note

Questo passaggio è consigliato. Solo le domande che includono questa istruzione SQL di esempio possono essere valutate automaticamente per l’accuratezza. Qualsiasi domanda che non includa una risposta SQL richiede una revisione manuale per essere valutata. Se si usa il pulsante Genera SQL , esaminare l'istruzione per assicurarsi che risponda con precisione alla domanda.
(solo modalità agente, facoltativo) Nel campo Nota di valutazione immettere indicazioni sulla risposta corretta o sul contenuto previsto. Genie passa la nota di valutazione al giudice LLM. La nota può fare riferimento al contenuto previsto nei report di testo generati dalla modalità Agent.
(solo modalità chat, facoltativo) Fare clic su Esegui per eseguire la query e visualizzare i risultati.
Al termine della modifica, fare clic su Aggiungi benchmark.
Per aggiornare una domanda dopo il salvataggio, fare clic sull'icona di modifica per aprire la finestra di dialogo Aggiorna la domanda.

Utilizzare i benchmark per testare formulazioni alternative alle domande

Quando si valuta l'accuratezza dello spazio Genie, è importante strutturare i test per riflettere scenari realistici. Gli utenti possono porre la stessa domanda in modi diversi. Databricks consiglia di aggiungere più formulazioni della stessa domanda e di utilizzare lo stesso esempio SQL nei test di benchmark per valutare completamente l’accuratezza. La maggior parte di Genie Spaces deve includere tra due e quattro formulazioni della stessa domanda.

Eseguire domande sul benchmark

Gli utenti con almeno autorizzazioni CAN EDIT in uno spazio Genie possono eseguire una valutazione del benchmark in qualsiasi momento. È possibile eseguire tutte le domande sul benchmark o selezionare un subset di domande da testare.

Per ogni domanda, Genie interpreta l'input, genera SQL e restituisce i risultati. I risultati e SQL generati vengono quindi confrontati con la risposta SQL definita nella domanda di benchmark.

Per eseguire tutte le domande sul benchmark:

Nella parte superiore dello spazio Genie, fare clic su Benchmark.
Fare clic su Esegui benchmark per avviare l’esecuzione del test.

Per eseguire un subset di domande sul benchmark:

Nella parte superiore dello spazio Genie, fare clic su Benchmark.
Selezionare le caselle di controllo accanto alle domande da testare.
Fare clic su Esegui selezionato per avviare l'esecuzione del test nelle domande selezionate.

È anche possibile selezionare un subset di domande da un risultato del benchmark precedente ed eseguire di nuovo tali domande specifiche per testare i miglioramenti.

I benchmark continuano a essere eseguiti quando si esce dalla pagina. È possibile controllare i risultati nella scheda Valutazione al termine dell'esecuzione.

Interpretare le classificazioni

La modalità benchmark determina il modo in cui Genie calcola le valutazioni.

Classificazioni in modalità chat

I criteri seguenti determinano il modo in cui Genie valuta le risposte in modalità chat:

Condition	Valutazione
Genie genera SQL che corrisponde esattamente alla risposta SQL fornita	buona
Genie genera un set di risultati che corrisponde esattamente al set di risultati prodotto da SQL Answer	buona
Genie genera un set di risultati con gli stessi dati della risposta SQL , ma ordinati in modo diverso	buona
Genie genera un set di risultati con valori numerici che arrotondano alle stesse 4 cifre significative della risposta SQL	buona
Genie genera SQL che genera un set di risultati vuoto o restituisce un errore	Cattivo
Genie genera un set di risultati che include colonne aggiuntive rispetto al set di risultati prodotto da SQL Answer	Cattivo
Genie genera un risultato di una singola cella diverso dal risultato della singola cella prodotto dalla risposta SQL	Cattivo

Revisione manuale necessaria: le risposte vengono contrassegnate con questa etichetta quando Genie non è in grado di valutare la correttezza o quando i risultati delle query generati da Genie non contengono una corrispondenza esatta con i risultati della risposta SQL fornita. Tutte le domande di benchmark che non includono una risposta SQL devono essere esaminate manualmente.

Classificazioni in modalità agente

Un giudice LLM valuta le risposte in modalità Agent anziché usare il confronto SQL. Se è stata specificata una nota di valutazione, il giudice LLM lo usa come materiale sussidiario durante la valutazione della risposta, incluso qualsiasi contenuto previsto nel report di testo generato dalla modalità Agent. I giudici valutano le risposte che soddisfano i criteri della nota di valutazione come Good.

Accedi alle valutazioni di benchmark

È possibile accedere a tutte le valutazioni di benchmark per tenere traccia dell'accuratezza nello spazio Genie nel tempo. Quando si apre il benchmarkdi uno spazio, viene visualizzato un elenco con timestamp delle esecuzioni di valutazione nella scheda Valutazioni. Se non vengono trovate esecuzioni di valutazione, vedere Aggiungere domande di benchmark o Eseguire le domande di benchmark.

Schermata Valutazioni, come descritto nel testo seguente.

La scheda valutazioni mostra una panoramica delle valutazioni e delle relative prestazioni riportate nelle categorie seguenti:

Nome valutazione: un timestamp che indica quando si è verificata un'esecuzione dell'evaluazione. Fare clic sul timestamp per visualizzare i dettagli per la valutazione. Stato di esecuzione: indica se la valutazione è stata completata, sospesa o non riuscita. Se un'esecuzione di valutazione include domande di benchmark che non hanno risposte SQL predefinite, viene contrassegnata per la revisione in questa colonna. Accuratezza: una valutazione numerica dell’accuratezza in tutte le domande di benchmark. Per le esecuzioni di valutazione che richiedono una revisione manuale, una misura di accuratezza viene visualizzata solo dopo la revisione di tali domande. Creato da: indica il nome dell’utente che ha eseguito la valutazione.

Esaminare le singole valutazioni

È possibile esaminare le singole valutazioni per ottenere un'analisi dettagliata di ogni risposta. È possibile modificare la valutazione per qualsiasi domanda e aggiornare tutti gli elementi che richiedono una revisione manuale.

Per esaminare le singole valutazioni:

Nella parte superiore dello spazio Genie, fai clic su Benchmark.
Fare clic sul timestamp per qualsiasi valutazione nella colonna Nome valutazione per aprire una visualizzazione dettagliata dell'esecuzione del test.
Usare l'elenco delle domande sul lato sinistro dello schermo per visualizzare una visualizzazione dettagliata di ogni domanda.
Esaminare e confrontare l'output del modello con la verità di base risposta.

Per i risultati classificati come non corretti, viene visualizzata una spiegazione che descrive il motivo per cui il risultato è stato valutato come Non valido. Ciò consente di comprendere differenze specifiche tra l'output generato e la verità di base prevista.

Note

I risultati di queste risposte vengono visualizzati nei dettagli di valutazione per una settimana. Dopo una settimana, i risultati non sono più visibili. L’istruzione SQL generata e l’istruzione SQL di esempio rimangono.
Clicca su Aggiorna verità fondamentale per salvare la risposta come nuova verità fondamentale per questa domanda. Ciò è utile se non esiste alcuna verità sul terreno o se la risposta è migliore o più accurata rispetto all'affermazione della verità di base esistente.
Fare clic sull’etichetta per modificare la valutazione.

Contrassegnare ogni risultato come good o bad per ottenere un punteggio accurato per questa valutazione.

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-06-01