Testen und Überwachen eines Genie Space

Testen Sie einen Genie Space mit Fragen aus der Praxis, überprüfen Sie die generierten SQL-Abfragen und Visualisierungen, bearbeiten Sie Antworten, wenn Genie Fehler macht, und überwachen Sie die Nutzung des Space sowie das Benutzerfeedback, damit Sie den Space korrekt halten können, während sich Daten und Fragen weiterentwickeln. Verwenden Sie Benchmarks, um die Antwortgenauigkeit im Maßstab zu ermitteln.

Testen Sie Ihren Genie Space

Die meisten Benutzerinteraktionen finden im Chatfenster statt. Die beste Möglichkeit, zu lernen, ob Ihr Raum wie gewünscht funktioniert, besteht darin, ihn mit realistischen Fragen zu testen, die Sie von Den geschäftlichen Benutzern erwarten.

Neues Chatfenster wie im folgenden Text beschrieben.

Beispielfragen, die in den Raumeinstellungen konfiguriert sind, werden im Chatfenster angezeigt. Genie kann auch Beispielfragen basierend auf dem Kontext des Raums generieren, um benutzern zu helfen, die Daten zu untersuchen. Benutzer können auf eine Beispielfrage klicken oder ihre eigenen Fragen im Textfeld unten auf dem Bildschirm eingeben.

Antworten werden oberhalb des Textfelds angezeigt. Nachdem ein Benutzer eine Frage eingegeben hat, wird er im Chatverlauf gespeichert.

So beginnen Sie eine neue Unterhaltung:

Klicken Sie auf Neuen Chat, um einen neuen Chat zu starten. Klicken Sie auf , um eine vorherige Unterhaltung zu öffnen.
Geben Sie Ihre Frage in das "Fragen Sie Ihre Frage..." Texteingabefeld ein.

Überprüfen von Antworten

Antworten werden in der Regel als Antworten in natürlicher Sprache auf Fragen sowie als Tabelle mit dem relevanten Resultset übermittelt. Wenn Genie erkennt, dass eine Visualisierung die Klarheit einer Antwort verbessern könnte, wird auch eine Visualisierung zurückgegeben. Die genaue Antwortstruktur variiert je nach Frage. Wenn eine SQL-Abfrage generiert wurde, um die Frage zu beantworten, wird sie in die Antwort eingeschlossen.

Es wird eine Beispielantwort mit Visualisierung, Feedback und anderen Optionen angezeigt.

Note

Wie andere große Sprachmodelle (LLMs) kann Genie nicht deterministische Verhaltensweisen aufweisen. Das bedeutet, dass Sie gelegentlich unterschiedliche Ausgaben erhalten, wenn Sie denselben Prompt mehrmals übermitteln. Das Bereitstellen von SQL-Beispielabfragen, aus denen Genie lernen kann, kann dazu beitragen, Genie konsistenter zu machen. Siehe Hinzufügen von Beispiel-SQL-Abfragen und -Funktionen.

Antwortfeedback

Jede Antwort fordert den Benutzer auf, zu antworten , ist dies richtig?. Benutzer können auf eine der folgenden Arten antworten:

Ja: Bestätigt, dass die Antwort korrekt angezeigt wird.
Beheben Sie dies: Kennzeichnet die Antwort als falsch. Benutzer können aus häufig auftretenden Problemen auswählen oder ihre eigene Erklärung eingeben. Sie können dann:
- Klicken Sie auf "Absenden", und versuchen Sie es erneut , die Antwort mithilfe des bereitgestellten Feedbacks neu zu generieren.
- Klicken Sie auf "Senden ", um das Feedback zu senden, ohne die Antwort neu zu generieren.
Überprüfung anfordern: Kennzeichnet die Antwort für die manuelle Überprüfung. Benutzer können einen optionalen Kommentar hinzufügen, um Ihnen zusätzlichen Kontext zu geben.

Als Editor können Sie Feedback und gekennzeichnete Antworten in der Genie-Schnittstelle anzeigen. Das Verhalten Ihres Genie Space ändert sich nicht auf der Grundlage von Benutzerfeedback allein. Sie sollten Feedback verwenden, um Verbesserungsmöglichkeiten zu identifizieren oder direkt auf Benutzerfragen zu reagieren. Databricks empfiehlt, Benutzende zu bitten, mit diesem Mechanismus Feedback zu dem Bereich zu geben.

Geschäftsbenutzer können Aktualisierungen der Fragen anzeigen, die sie auf ihrer Seite "Monitor " zur Überprüfung markiert haben. Benutzer mit mindestens CAN MANAGE-Berechtigung für den Genie Space können den spezifischen Austausch überprüfen, die Anfrage kommentieren und die Antwort bestätigen oder korrigieren. Sie können auf der Überwachungsseite auf Feedback und Überprüfungsanfragen zugreifen. Anschließend können Sie dieses Feedback verwenden, um Antworten zu optimieren und Ihren Bereich weiterzuentwickeln. Weitere Informationen finden Sie unter Überwachen des Space.

Andere Antwortaktionen

Bei Antworten, die generierte SQL enthalten, können Sie mit den zurückgegebenen Daten interagieren.

CSV kopieren: Speicherplatzbenutzer können bis zu 1 GB Ergebnisdaten als CSV herunterladen. Die endgültige Dateigröße kann etwas größer oder kleiner als 1 GB sein, da der Grenzwert von 1 GB auf einen früheren Schritt als der endgültige Dateidownload angewendet wird. Klicken Sie zum Herunterladen der Ergebnisse in der Antwort auf das Downloadsymbol.
Code anzeigen: Klicken Sie auf " Code anzeigen ", um die generierte Abfrage anzuzeigen. Dies kann für die Problembehandlung unzuverlässiger Antworten hilfreich sein. Siehe Bearbeiten und Speichern von Abfragen.
Das Kebab-Menü: Greifen Sie auf die folgenden Aktionen zu:
- CSV-Kopie: Kopieren Sie das Antwort-CSV in die Zwischenablage.
- Als Anweisung hinzufügen: Klicken Sie für Interaktionen, die hilfreich sein können, um Genie zu vermitteln, wie ähnliche Fragen beantwortet werden können, auf "Als Anweisung hinzufügen". Dadurch wird die Benutzeroberfläche zum Speichern von Beispiel-SQL-Abfragen geöffnet, die mit der Frage und dem generierten SQL befüllt wird. Sie können das Beispiel als geschrieben belassen oder bearbeiten und speichern, um Änderungen vorzunehmen. Siehe Hinzufügen von Beispiel-SQL-Abfragen und -Funktionen.
- Als Benchmark hinzufügen: Fügen Sie die Frage als Benchmarkfrage hinzu. Siehe Benchmarks.
- Aktualisieren Sie Daten: Aktualisieren Sie die Daten, indem Sie die zuvor generierte Abfrage ausführen.
- Antwort neu generieren: Geben Sie die Frage erneut ein und lassen Sie Genie die Antwort neu generieren.

Bearbeiten und Speichern von Abfragen

Genies SQL-Abfragen können nach Bedarf auf Genauigkeit überprüft und bearbeitet werden. Genie Space Autoren kennen in der Regel die Domäne und Daten, die es ihnen ermöglichen, zu erkennen, wann Genie eine falsche Antwort generiert. Häufig können Fehler mit etwas manuellem Optimierung in der generierten SQL-Abfrage behoben werden. Klicken Sie auf "Generierten Code anzeigen ", um die Abfrage zu prüfen und die generierte SQL für eine beliebige Antwort anzuzeigen.

Sie können die generierte SQL-Anweisung bearbeiten, um sie zu korrigieren, wenn Sie über CAN EDIT oder größere Berechtigungen für den Genie Space verfügen. Nachdem Sie Ihre Korrekturen vorgenommen haben, führen Sie die Abfrage aus. Anschließend können Sie diese als Anweisung speichern, um Genie beizubringen, wie in Zukunft geantwortet werden soll. Klicken Sie zum Speichern Der bearbeiteten Abfrage auf "Als Anweisung hinzufügen".

Überwachen des Raums

Ein Genie Space kann als langfristiges Tool für die Zusammenarbeit zwischen Datenteams und Geschäftsbenutzern betrachtet werden. Es sammelt Wissen im Laufe der Zeit, anstatt als einmalige Bereitstellung zu dienen. Wenn Benutzer neue Fragen stellen, können Sie den Bereich verfeinern, um die Themenabdeckung und Genauigkeit zu verbessern.

Verwenden Sie die Registerkarte "Überwachen ", um einzelne Fragen und Antworten zu überprüfen, Benutzerfeedback anzuzeigen und antworten zu identifizieren, die zur Überprüfung gekennzeichnet sind.

Eine Beispielregisterkarte zur Überwachung mit den beschriebenen Features.

Auf der Registerkarte "Monitor" werden alle Fragen und Antworten angezeigt, die im Raum gestellt wurden. Sie können Fragen nach Zeit, Bewertung, benutzender Person oder Status filtern. Durch die Überwachung des Raums können Benutzer mit CAN MANAGE-Berechtigungen proaktiv die Abfragen verstehen, die von Geschäftsbenutzern ausgelöst werden und wie der Genie Space reagiert hat.

Das Identifizieren der Fragen, mit denen Genie kämpft, kann Ihnen helfen, den Genie Space mit spezifischen Anweisungen zu aktualisieren, um seine Antworten zu verbessern. Klicken Sie auf eine Frage, um den Frage- und Antworttext zu öffnen und den vollständigen Chatthread anzuzeigen.

Nutzung und Trends überprüfen

Verwenden Sie den Abschnitt „Wöchentlicher Digest“ der Registerkarte „Monitor“, um das wöchentliche Nachrichtenvolumen, aktive Benutzer sowie Daumen nach oben/unten zu überprüfen. Um die wichtigsten Nutzungstrends und häufige Probleme zu identifizieren, klicken Sie auf " Raumnutzung analysieren". Dadurch wird Genie Code gestartet, der die Überwachungsdaten Ihres Raums analysiert und Nutzungsmuster und Verbesserungsbereiche zusammenfasst. Genie Code-Antworten enthalten Zitate, die mit den relevanten Unterhaltungen in Ihrem Raum verknüpft sind. Klicken Sie auf ein Zitat, um die Unterhaltung direkt im Genie Code-Thread zu öffnen.

Der Abschnitt

Überprüfen von Unterhaltungen auf Qualität

Important

Dieses Feature befindet sich in der Betaversion. Arbeitsbereichsadministratoren können den Zugriff auf dieses Feature über die Vorschauseite steuern. Siehe Manage Azure Databricks Previews.

Wenn eine Unterhaltung auf von Raummanagern überprüfbar festgelegt ist, können Benutzer mit der BERECHTIGUNG CAN MANAGE die Unterhaltung über die Registerkarte "Überwachung" öffnen, um den vollständigen Austausch zu überprüfen. Auf diese Weise können Sie die Antwortqualität von Genie bewerten, auf Benutzerfeedback reagieren und Bereiche identifizieren, in denen zusätzliche Anweisungen oder Beispielabfragen die Genauigkeit verbessern würden. Für Unterhaltungen, die auf "Privat" festgelegt sind, können Raummanager Benutzeraufforderungen auf der Registerkarte "Überwachung" anzeigen, aber die vollständige Unterhaltung oder ergebnisse nicht anzeigen. Weitere Informationen finden Sie unter "Teilen einer Unterhaltung".

Note

Unterhaltungen, die erstellt wurden, bevor die Beta aktiviert wurde, bleiben privat. Nach der Aktivierung werden Unterhaltungen standardmäßig von Raummanagern überprüfbar.

Vergleichstests

Mit Benchmarks können Sie eine Reihe von Testfragen erstellen, die Sie ausführen können, um die Gesamtantwortgenauigkeit von Genie zu bewerten. Eine gut gestaltete Reihe von Benchmarks, die die am häufigsten gestellten Benutzerfragen abdecken, hilft ihnen, die Genauigkeit Ihres Genie Space zu bewerten, während Sie sie verfeinern. Jeder Genie Space kann bis zu 500 Benchmarkfragen enthalten.

Benchmarkfragen werden als neue Unterhaltungen ausgeführt. Sie haben nicht denselben Kontext wie eine Genie-Thread-Unterhaltung. Jede Frage wird als neue Abfrage verarbeitet, wobei die im Leerraum definierten Anweisungen verwendet werden, einschließlich aller bereitgestellten Beispiel-SQL- und SQL-Funktionen.

Benchmark-Fragen unterstützen zwei Modi:

Chatmodus: Der Standardmodus. Genie bewertet die Genauigkeit, indem die von SQL generierten Ergebnisse mit einer bereitgestellten SQL-Antwort verglichen werden.
Agent-Modus: Führt Benchmarkfragen mit derselben mehrstufigen Schlussfolgerung wie der Agent-Modus von Genie aus. Ein LLM-Richter bewertet die Antworten. Sie können eine optionale Bewertungsnotiz bereitstellen, um die Benotung zu leiten.

Beispielbenchmarks mit berichteter Genauigkeit zu neun Fragen.

Hinzufügen von Benchmarkfragen

Benchmarkfragen müssen verschiedene Methoden zum Formulieren der häufig gestellten Fragen darstellen, die Ihre Benutzenden stellen. Sie können sie verwenden, um die Antwort von Genie auf Variationen in Frageausdrücken oder verschiedenen Frageformaten zu überprüfen.

Beim Erstellen einer Benchmarkfrage können Sie optional eine SQL-Abfrage einschließen, deren Resultset die richtige Antwort ist. Während der Ausführung der Benchmark wird die Genauigkeit bewertet, indem das Resultset aus Ihrer SQL-Abfrage mit dem Resultset verglichen wird, das von Genie generiert wurde. Sie können auch Unity Catalog SQL-Funktionen als Goldstandardantworten für Benchmarks verwenden.

Um eine Benchmark-Frage hinzuzufügen:

Klicken Sie oben im Genie Space auf Benchmarks.
Klicken Sie auf "Benchmark hinzufügen".
Geben Sie im Feld Frage eine Benchmarkfrage zum Testen ein.
Wählen Sie einen Modus aus: Chat oder Agent.
- Chatmodus: Genie bewertet die Genauigkeit, indem sie ihre Ergebnisse mit einer von Ihnen bereitgestellten SQL-Antwort vergleichen.
- Agent-Modus: Genie verwendet mehrstufige Gründe, um die Frage zu beantworten. Ein LLM-Richter bewertet die Antworten.
(Nur Chatmodus) Stellen Sie eine SQL-Abfrage bereit, die die Frage beantwortet. Sie können Ihre eigene Abfrage schreiben, indem Sie sie in das Feld SQL Answer eingeben, auch unter Verwendung von Unity Catalog SQL-Funktionen. Alternativ können Sie auf "SQL generieren " klicken, damit Genie die SQL-Abfrage für Sie schreibt. Verwenden Sie eine SQL-Anweisung, die die eingegebene Frage genau beantwortet.

Note

Dieser Schritt wird empfohlen. Nur Fragen, die diese Beispiel-SQL-Anweisung enthalten, können automatisch auf Genauigkeit überprüft werden. Alle Fragen, die keine SQL-Antwort enthalten, erfordern eine manuelle Überprüfung der Bewertung. Wenn Sie die Schaltfläche "SQL generieren " verwenden, überprüfen Sie die Anweisung, um sicherzustellen, dass sie die Frage genau beantwortet.
(Nur Agentmodus, optional) Geben Sie im Feld "Bewertungsnotiz " Anleitungen zur richtigen Antwort oder erwarteten Inhalte ein. Genie übergibt die Bewertungsnotiz an den LLM-Richter. Die Notiz kann auf den erwarteten Inhalt in Textberichten verweisen, die der Agentmodus generiert.
(Nur Chatmodus, optional) Klicken Sie auf "Ausführen" , um Die Abfrage auszuführen und die Ergebnisse anzuzeigen.
Wenn Sie mit der Bearbeitung fertig sind, klicken Sie auf "Benchmark hinzufügen".
Wenn Sie eine Frage nach dem Speichern aktualisieren möchten, klicken Sie auf das Stiftsymbol , um das Dialogfeld Frage aktualisieren zu öffnen.

Verwenden von Benchmarks zum Testen alternativer Frageformulierungen

Bei der Bewertung der Genauigkeit Ihres Genie Space ist es wichtig, Tests zu strukturieren, um realistische Szenarien widerzuspiegeln. Benutzende stellen dieselbe Frage möglicherweise auf unterschiedliche Arten. Databricks empfiehlt, mehrere Formulierungen derselben Frage hinzuzufügen und dieselbe Beispiel-SQL in Ihren Benchmarktests zu verwenden, um die Genauigkeit vollständig zu bewerten. Die meisten Genie Spaces sollten zwischen zwei und vier Ausdrücken derselben Frage enthalten.

Ausführen von Benchmarkfragen

Benutzer mit mindestens CAN EDIT-Berechtigungen in einem Genie Space können jederzeit eine Benchmark-Auswertung ausführen. Sie können alle Benchmark-Fragen ausführen oder eine Teilmenge der zu testende Fragen auswählen.

Für jede Frage interpretiert Genie die Eingabe, generiert SQL und gibt Ergebnisse zurück. Die generierten SQL- und Ergebnisse werden dann mit der in der Benchmarkfrage definierten SQL-Antwort verglichen.

So führen Sie alle Benchmarkfragen aus:

Klicken Sie oben im Genie Space auf Benchmarks.
Klicken Sie auf Benchmarks ausführen, um die Testausführung zu starten.

Eine Teilmenge von Benchmarkfragen ausführen:

Klicken Sie oben im Genie Space auf Benchmarks.
Aktivieren Sie die Kontrollkästchen neben den Fragen, die Sie testen möchten.
Klicken Sie auf "Auswahl ausführen", um die Testausführung für die ausgewählten Fragen zu starten.

Sie können auch eine Teilmenge von Fragen aus einem vorherigen Benchmarkergebnis auswählen und diese spezifischen Fragen erneut ausführen, um Verbesserungen zu testen.

Benchmarks laufen weiter, wenn Sie die Seite verlassen. Sie können die Ergebnisse auf der Registerkarte "Auswertung " überprüfen, wenn die Ausführung abgeschlossen ist.

Interpretieren von Bewertungen

Der Benchmark-Modus bestimmt, wie Genie Bewertungen berechnet.

Chatmodusbewertungen

Die folgenden Kriterien bestimmen, wie Genie Antworten im Chatmodus bewertet:

Zustand	Bewertung
Genie generiert SQL, die genau mit der bereitgestellten SQL-Antwort übereinstimmt.	Gut
Genie generiert ein Resultset, das exakt mit dem Resultset übereinstimmt, das von der SQL-Antwort erzeugt wird.	Gut
Genie generiert ein Resultset mit denselben Daten wie die SQL-Antwort , sortiert aber anders	Gut
Genie generiert ein Resultset mit numerischen Werten, die auf die gleichen vier signifikanten Ziffern runden wie die SQL-Antwort	Gut
Genie generiert SQL, die einen leeren Resultset erzeugt oder einen Fehler zurückgibt.	Schlecht
Genie generiert ein Resultset, das zusätzliche Spalten enthält, verglichen mit dem von der SQL Answer erzeugten Resultset.	Schlecht
Genie generiert ein einzelnes Zellergebnis, das sich von dem von der SQL-Antwort erzeugten Einzelzellenergebnis unterscheidet.	Schlecht

Manuelle Überprüfung erforderlich: Antworten werden mit dieser Bezeichnung gekennzeichnet, wenn Genie die Korrektheit nicht bewerten kann oder wenn von Genie generierte Abfrageergebnisse keine genaue Übereinstimmung mit den Ergebnissen der bereitgestellten SQL-Antwort enthalten. Alle Benchmarkfragen, die keine SQL-Antwort enthalten, müssen manuell überprüft werden.

Bewertungen des Agentenmodus

Ein LLM-Bewertungsmodell bewertet Antworten im Agentenmodus, statt einen SQL-Vergleich zu verwenden. Wenn Sie eine Bewertungsnotiz angegeben haben, verwendet der LLM-Richter ihn als Anleitung bei der Bewertung der Antwort, einschließlich aller erwarteten Inhalte im Textbericht, den der Agent-Modus generiert. Der Richter bewertet Antworten, die die Bewertungskriterien als "Gut" erfüllen.

Aufrufen von Benchmarkbewertungen

Sie können im Laufe der Zeit auf alle Ihre Benchmark-Bewertungen zugreifen, um die Genauigkeit in Ihrem Genie Space nachzuverfolgen. Wenn Sie die Benchmarks eines Raums öffnen, wird auf der Registerkarte "Auswertungen " eine Zeitstempelliste mit Auswertungen angezeigt. Wenn keine Auswertungsläufe gefunden werden, lesen Sie "Hinzufügen von Benchmarkfragen " oder "Ausführen von Benchmarkfragen".

Bewertungsbildschirm, wie im folgenden Text beschrieben.

Auf der Registerkarte Evaluierungen finden Sie eine Übersicht über Evaluierungen und deren Leistung in den folgenden Kategorien:

Auswertungsname: Ein Zeitstempel, der angibt, wann eine Auswertung ausgeführt wurde. Klicken Sie auf den Zeitstempel, um Details für diese Bewertung anzuzeigen. Ausführungsstatus: Gibt an, ob die Bewertung abgeschlossen, angehalten oder nicht erfolgreich ist. Wenn eine Bewertungsausführung Benchmarkfragen enthält, die keine vordefinierten SQL-Antworten enthalten, wird sie für die Überprüfung in dieser Spalte markiert. Genauigkeit: Eine numerische Bewertung der Genauigkeit aller Benchmarkfragen. Bei Bewertungsausführungen, die eine manuelle Überprüfung erfordern, wird erst nach der Überprüfung dieser Fragen eine Messung der Genauigkeit angezeigt. Erstellt von: Gibt den Namen des Benutzers an, der die Bewertung ausgeführt hat.

Überprüfen einzelner Bewertungen

Sie können einzelne Bewertungen überprüfen, um einen detaillierten Blick auf jede Antwort zu erhalten. Sie können die Bewertung für jede Frage bearbeiten und alle Elemente aktualisieren, die eine manuelle Überprüfung benötigen.

So überprüfen Sie einzelne Bewertungen:

Klicken Sie oben im Genie Space auf Benchmark.
Klicken Sie auf den Zeitstempel für eine beliebige Bewertung in der Spalte Name der Bewertung, um eine detaillierte Ansicht dieser Testausführung zu öffnen.
Verwenden Sie die Frageliste auf der linken Seite des Bildschirms, um eine detaillierte Ansicht der einzelnen Fragen anzuzeigen.
Überprüfen und vergleichen Sie die Antwort der Modellausgabe mit der Antwort von Ground Truth.

Für ergebnisse, die als falsch bewertet wurden, wird eine Erklärung angezeigt, die beschreibt, warum das Ergebnis als "Schlecht" bewertet wurde. Dies hilft Ihnen, bestimmte Unterschiede zwischen der generierten Ausgabe und der erwarteten Bodenwahrheit zu verstehen.

Note

Die Ergebnisse dieser Antworten werden in den Auswertungsdetails für eine Woche angezeigt. Nach einer Woche sind die Ergebnisse nicht mehr sichtbar. Die generierte SQL-Anweisung und die SQL-Beispiel-Anweisung bleiben bestehen.
Klicken Sie auf "Ground Truth aktualisieren", um die Antwort als neue Ground Truth für diese Frage zu speichern. Dies ist nützlich, falls keine Referenzdaten existieren oder falls die Antwort besser oder genauer ist als die bestehende Referenzaussage.
Klicken Sie auf der Bezeichnung auf , um die Bewertung zu bearbeiten.

Markieren Sie jedes Ergebnis als Gut oder Schlecht, um eine genaue Bewertung für diese Auswertung zu erhalten.

Feedback

War diese Seite hilfreich?

Last updated on 2026-06-01