Tester et surveiller un espace Génie

Testez un espace Genie avec des questions réelles, passez en revue le SQL généré et les visualisations, modifiez les réponses lorsque Genie obtient quelque chose de mal, et surveillez l’utilisation de l’espace et les commentaires des utilisateurs pour que vous puissiez conserver l’espace précis à mesure que les données et les questions évoluent. Utilisez des benchmarks pour noter la précision de la réponse à grande échelle.

Tester votre espace Génie

La plupart des interactions utilisateur ont lieu dans la fenêtre de conversation. La meilleure façon d’apprendre si votre espace fonctionne comme vous le souhaitez consiste à le tester avec des questions réalistes que vous attendez que vos utilisateurs professionnels posent.

Nouvelle fenêtre de conversation, comme décrit dans le texte qui suit.

Les exemples de questions configurés dans les paramètres d’espace s’affichent dans la fenêtre de conversation. Genie peut également générer des exemples de questions en fonction du contexte de l’espace pour aider les utilisateurs à commencer à explorer les données. Les utilisateurs peuvent cliquer sur un exemple de question ou entrer leurs propres questions dans le champ de texte en bas de l’écran.

Les réponses apparaissent au-dessus du champ de texte. Une fois qu’un utilisateur entre une question, elle est enregistrée dans l’historique des conversations.

Pour démarrer une nouvelle conversation :

Cliquez sur Nouvelle conversation pour démarrer une nouvelle conversation. Cliquez sur Pour ouvrir une conversation précédente.
Tapez votre question dans le champ Poser votre question... champ d’entrée de texte.

Passer en revue les réponses

Les réponses sont généralement fournies en tant que réponses en langage naturel aux questions et à un tableau montrant le jeu de résultats approprié. Lorsque Genie détecte qu’une visualisation peut améliorer la clarté de la réponse, elle retourne également une visualisation. La structure exacte de la réponse varie en fonction de la question. Si une requête SQL a été générée pour répondre à la question, elle est incluse dans la réponse.

Un exemple de réponse avec la visualisation, les commentaires et d’autres options s’affiche.

Note

Comme d’autres modèles de langage volumineux (LLMs), Genie peut présenter des comportements non déterministes. Cela signifie que vous pouvez recevoir occasionnellement des sorties différentes en envoyant la même invite plusieurs fois. Fournir des exemples de requêtes SQL que Genie peut apprendre améliore la cohérence de Genie. Consultez Ajouter des exemples de requêtes et de fonctions SQL.

Commentaires sur la réponse

Chaque réponse invite l’utilisateur à répondre Est-ce correct ?. Les utilisateurs peuvent répondre de l’une des manières suivantes :

Oui: Confirme que la réponse apparaît exacte.
Corrigez-le : Signale la réponse comme incorrecte. Les utilisateurs peuvent choisir parmi les problèmes courants ou entrer leur propre explication. Ils peuvent ensuite :
- Cliquez sur Envoyer et réessayez pour régénérer la réponse à l’aide des commentaires fournis.
- Cliquez sur Envoyer pour envoyer les commentaires sans régénérer la réponse.
Révision de la demande : Signale la réponse pour la révision manuelle. Les utilisateurs peuvent ajouter un commentaire facultatif pour vous donner un contexte supplémentaire.

En tant qu’éditeur, vous pouvez voir les commentaires et les réponses marquées dans l’interface Genie. Le comportement de Votre Génie Space ne change pas en fonction des commentaires des utilisateurs seuls. Vous devez utiliser des commentaires pour identifier les opportunités d’amélioration ou répondre directement aux questions des utilisateurs. Databricks recommande d’encourager les utilisateurs à fournir des commentaires sur l’espace à l’aide de ce mécanisme.

Les utilisateurs professionnels peuvent afficher les mises à jour des questions qu’ils ont marquées pour révision sur leur page Moniteur . Les utilisateurs disposant au moins de l’autorisation CAN MANAGE sur l’espace Génie peuvent passer en revue l’échange spécifique, commenter la demande et confirmer ou corriger la réponse. Ils peuvent accéder aux commentaires et passer en revue les demandes sur la page de surveillance. Vous pouvez ensuite utiliser ces commentaires pour paramétrer les réponses et itérer sur votre espace. Consultez Surveiller l’espace.

Autres actions de réponse

Pour les réponses qui incluent du code SQL généré, des options supplémentaires vous permettent d’interagir avec les données retournées.

Copiez le fichier CSV : Les utilisateurs de l’espace peuvent télécharger jusqu’à environ 1 Go de données de résultats en tant que csv. La taille finale du téléchargement de fichier peut être légèrement supérieure ou inférieure à 1 Go, car la limite de 1 Go est appliquée à une étape antérieure au téléchargement final du fichier. Pour télécharger les résultats, cliquez sur l’icône de téléchargement dans la réponse.
Afficher le code : Cliquez sur Afficher le code pour afficher la requête générée. Cela peut être utile pour résoudre les problèmes de réponses non fiables. Consultez Modifier et enregistrer des requêtes.
Icône : Accédez aux actions suivantes :
- Copiez le fichier CSV : copiez le fichier CSV de réponse dans votre Presse-papiers.
- Ajouter en tant qu’instruction : Pour les interactions qui peuvent être utiles pour enseigner à Genie comment répondre à des questions similaires, cliquez sur Ajouter en tant qu’instruction. L’interface utilisateur s’ouvre pour enregistrer des exemples de requêtes SQL, renseignés avec la question et le code SQL généré. Vous pouvez laisser l’exemple tel qu’il est écrit, ou le modifier et l’enregistrer pour apporter des modifications. Consultez Ajouter des exemples de requêtes et de fonctions SQL.
- Ajouter en tant que benchmark : ajoutez la question en tant que question de benchmark. Voir Benchmarks.
- Actualiser les données : actualisez les données en exécutant la requête générée précédemment.
- Régénérer la réponse : envoyez à nouveau la question et avez Génie régénérer la réponse.

Modifier et enregistrer des requêtes

Les requêtes SQL de Genie peuvent être examinées pour obtenir une précision et une modification si nécessaire. Les auteurs de Génie Space connaissent généralement le domaine et les données qui leur permettent de reconnaître quand Genie génère une réponse incorrecte. Les erreurs peuvent souvent être corrigées par un simple réglage manuel de la requête SQL générée. Cliquez sur Afficher le code généré pour inspecter la requête et afficher le code SQL généré pour toute réponse.

Vous pouvez modifier l’instruction SQL générée pour la corriger si vous disposez de privilèges CAN EDIT ou supérieur sur l’espace Génie. Une fois vos corrections effectuées, exécutez la requête. Ensuite, vous pouvez l’enregistrer en tant qu’instruction pour apprendre à Genie comment répondre la prochaine fois. Pour enregistrer votre requête modifiée, cliquez sur Ajouter en tant qu’instruction.

Monitorer l’espace

Un Génie Space peut être considéré comme un outil de collaboration à long terme entre les équipes de données et les utilisateurs professionnels. Il accumule les connaissances au fil du temps au lieu de servir de déploiement à usage unique. Lorsque les utilisateurs posent de nouvelles questions, vous pouvez affiner l’espace pour améliorer la couverture et l’exactitude.

Utilisez l’onglet Moniteur pour passer en revue les questions et réponses individuelles, afficher les commentaires des utilisateurs et identifier les réponses signalées pour révision.

Exemple d’onglet surveillance montrant les fonctionnalités décrites.

L’onglet Moniteur affiche toutes les questions et réponses qui ont été posées dans l’espace. Vous pouvez filtrer les questions par heure, évaluation, utilisateur ou état. En surveillant l’espace, les utilisateurs disposant d’autorisations CAN MANAGE peuvent comprendre de manière proactive les requêtes déclenchées par les utilisateurs professionnels et la façon dont l’espace Génie a répondu.

Identifier les questions avec lesquelles Genie lutte peut vous aider à mettre à jour l’espace Génie avec des instructions spécifiques pour améliorer ses réponses. Cliquez sur une question pour ouvrir le texte de la question et de la réponse et afficher le fil de conversation complet.

Examiner l’utilisation et les tendances

Utilisez la section Synthèse hebdomadaire de l’onglet Moniteur pour passer en revue le volume de messages hebdomadaires, les utilisateurs actifs et les commentaires haut/bas. Pour identifier les principales tendances d’utilisation et les problèmes courants, cliquez sur Analyser l’utilisation de l’espace. Cela lance Genie Code, qui analyse les données de surveillance de votre espace et résume les modèles d’utilisation et les domaines d’amélioration. Les réponses de Genie Code incluent des citations qui renvoient aux conversations pertinentes dans votre espace. Cliquez sur une citation pour ouvrir directement la conversation dans le fil de discussion Genie Code.

Section Synthèse hebdomadaire de l’onglet Surveillance montrant les messages hebdomadaires, les utilisateurs et les commentaires.

Passer en revue les conversations pour la qualité

Important

Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.

Lorsqu’une conversation est définie sur Révisable par les gestionnaires d’espace, les utilisateurs disposant de l’autorisation CAN MANAGE peuvent ouvrir la conversation à partir de l’onglet surveillance pour passer en revue l’échange complet. Cela vous permet d’évaluer la qualité de la réponse de Genie, de répondre aux commentaires des utilisateurs et d’identifier les zones où des instructions supplémentaires ou des exemples de requêtes amélioreraient la précision. Pour les conversations définies sur Private, les gestionnaires d’espaces peuvent voir les invites utilisateur dans l’onglet Surveillance, mais ne peuvent pas afficher la conversation complète ou les résultats. Pour plus d’informations, consultez Partager une conversation.

Note

Les conversations créées avant l’activation de la version bêta restent privées. Les conversations créées après l'activation ont comme valeur par défaut révisable par les gestionnaires d'espace.

Supprimer une conversation

Les utilisateurs disposant de l’autorisation CAN MANAGE sur un espace Génie peuvent supprimer définitivement toute conversation dans l’espace de la page de surveillance. Cela supprime la conversation et ses messages pour tous les utilisateurs.

Ouvrez l’espace Génie, puis cliquez sur l’onglet Moniteur .
Cliquez sur une conversation pour ouvrir le tiroir de conversation.
Cliquez sur Supprimer la conversation.
Dans la boîte de dialogue de confirmation, cliquez sur Supprimer pour supprimer définitivement la conversation ou Annuler pour fermer la boîte de dialogue sans supprimer.

Benchmarks

Les benchmarks vous permettent de créer un ensemble de questions de test que vous pouvez exécuter pour évaluer la précision globale de la réponse de Genie. Un ensemble bien conçu de benchmarks couvrant les questions utilisateur les plus fréquemment posées permet d’évaluer la précision de votre espace Génie à mesure que vous l’affinez. Chaque espace Génie peut contenir jusqu’à 500 questions de référence.

Les questions de référence s’exécutent en tant que nouvelles conversations. Elles ne s’inscrivent pas dans le même contexte qu’une conversation Genie thématique. Chaque question est traitée en tant que nouvelle requête, en utilisant les instructions définies dans l’espace, y compris les exemples fournis de fonctions SQL et SQL.

Les questions de benchmark prennent en charge deux modes :

Mode conversation : mode par défaut. Genie évalue la précision en comparant ses résultats générés par SQL à une réponse SQL fournie.
Mode agent : exécute des questions de benchmark à l’aide du même raisonnement en plusieurs étapes que le mode Agent de Genie. Un juge LLM note les réponses. Vous pouvez fournir une note d’évaluation facultative pour guider la notation.

Exemples de benchmarks avec précision rapportée sur neuf questions.

Ajouter des questions de benchmark

Les questions de référence doivent refléter différentes façons de formuler les questions courantes posées par vos utilisateurs. Vous pouvez les utiliser pour vérifier la réponse de Genie aux variantes de formulation des questions ou à différents formats de questions.

Lors de la création d’une question de benchmark, vous pouvez éventuellement inclure une requête SQL dont le jeu de résultats est la réponse correcte. Pendant les exécutions de benchmark, la précision est évaluée en comparant le jeu de résultats de votre requête SQL à celle générée par Genie. Vous pouvez également utiliser les fonctions SQL du catalogue Unity comme réponses standard pour les benchmarks.

Pour ajouter une question de benchmark :

En haut de l’espace Génie, cliquez sur Benchmarks.
Cliquez sur Ajouter un benchmark.
Dans le champ Question, entrez une question de référence à tester.
Sélectionnez un mode : Conversation ou Agent.
- Mode conversation : Genie évalue la précision en comparant ses résultats à une réponse SQL que vous fournissez.
- Mode agent : Genie utilise le raisonnement en plusieurs étapes pour répondre à la question. Un juge LLM note les réponses.
(Mode conversation uniquement) Fournissez une requête SQL qui répond à la question. Vous pouvez écrire votre propre requête en tapant dans la zone Réponse SQL , y compris les fonctions SQL catalogue Unity. Vous pouvez également cliquer sur Générer SQL pour que Genie écrive la requête SQL pour vous. Utilisez une instruction SQL qui répond avec précision à la question que vous avez entrée.

Note

Cette étape est recommandée. La précision ne peut être évaluée automatiquement que pour les questions qui incluent cet exemple d’instruction SQL. Toute question qui n’inclut pas de réponse SQL nécessite une révision manuelle pour pouvoir être évaluée. Si vous utilisez le bouton Générer SQL , passez en revue l’instruction pour vous assurer qu’elle répond avec précision à la question.
(Mode agent uniquement, facultatif) Dans le champ Note d’évaluation , entrez des conseils sur la réponse correcte ou le contenu attendu. Genie passe la note d’évaluation au juge LLM. La note peut référencer le contenu attendu dans les rapports de texte générés par le mode Agent.
(Mode conversation uniquement, facultatif) Cliquez sur Exécuter pour exécuter votre requête et afficher les résultats.
Une fois la modification terminée, cliquez sur Ajouter un benchmark.
Pour mettre à jour une question après l’enregistrement, cliquez sur le crayon d’icône pour ouvrir la boîte de dialogue Mettre à jour la question .

Utiliser les points de référence pour tester d’autres formulations de questions

Lors de l’évaluation de la précision de votre espace Génie, il est important de structurer les tests pour refléter des scénarios réalistes. Les utilisateurs peuvent poser la même question de différentes manières. Databricks recommande d’ajouter plusieurs formulations de la même question et d’utiliser le même exemple SQL dans vos tests de référence afin d’évaluer entièrement la précision. La plupart des Génies Spaces devraient inclure entre deux et quatre formulations de la même question.

Exécuter des questions de référence

Les utilisateurs disposant au moins d’autorisations CAN EDIT dans un espace Génie peuvent exécuter une évaluation de benchmark à tout moment. Vous pouvez exécuter toutes les questions de benchmark ou sélectionner un sous-ensemble de questions à tester.

Pour chaque question, Genie interprète l’entrée, génère SQL et retourne des résultats. Les résultats et SQL générés sont ensuite comparés à la réponse SQL définie dans la question de benchmark.

Pour exécuter toutes les questions de référence :

En haut de l’espace Génie, cliquez sur Benchmarks.
Cliquez sur Exécuter les questions de référence pour lancer l’exécution de test.

Pour exécuter un sous-ensemble de questions de benchmark :

En haut de l’espace Génie, cliquez sur Benchmarks.
Cochez les cases en regard des questions que vous souhaitez tester.
Cliquez sur Exécuter la sélection pour démarrer la mise en œuvre du test sur les questions sélectionnées.

Vous pouvez également sélectionner un sous-ensemble de questions à partir d’un résultat de benchmark précédent et réexécuter ces questions spécifiques pour tester les améliorations.

Les benchmarks continuent à s’exécuter lorsque vous quittez la page. Vous pouvez vérifier les résultats sous l’onglet Évaluation une fois l’exécution terminée.

Interpréter les évaluations

Le mode benchmark détermine la façon dont Genie calcule les évaluations.

Évaluations du mode conversation

Les critères suivants déterminent la façon dont Genie évalue les réponses du mode conversation :

Pathologie	Évaluation
Genie génère sql qui correspond exactement à la réponse SQL fournie	Bon
Genie génère un jeu de résultats qui correspond exactement au jeu de résultats produit par la réponse SQL	Bon
Genie génère un jeu de résultats avec les mêmes données que la réponse SQL , mais triée différemment	Bon
Genie génère un jeu de résultats avec des valeurs numériques arrondies à 4 chiffres significatifs identiques à la réponse SQL	Bon
Genie génère SQL qui produit un jeu de résultats vide ou retourne une erreur	Mauvais
Genie génère un jeu de résultats qui inclut des colonnes supplémentaires par rapport au jeu de résultats produit par la réponse SQL	Mauvais
Genie génère un résultat de cellule unique différent du résultat de cellule unique produit par la réponse SQL	Mauvais

Révision manuelle nécessaire : les réponses sont marquées avec cette étiquette lorsque Genie ne peut pas évaluer la justesse ou lorsque les résultats de requête générés par Genie ne contiennent pas de correspondance exacte avec les résultats de la réponse SQL fournie. Toutes les questions de référence qui n’incluent pas de réponse SQL doivent être révisées manuellement.

Évaluations du mode agent

Un juge LLM note les réponses en mode Agent plutôt que d’utiliser la comparaison SQL. Si vous avez fourni une note d’évaluation, le juge LLM l’utilise comme conseils lors de l’évaluation de la réponse, y compris tout contenu attendu dans le rapport de texte généré par le mode Agent. Le juge évalue les réponses qui répondent aux critères de note d’évaluation comme bons.

Accéder aux évaluations des points de référence

Vous pouvez accéder à toutes vos évaluations de référence pour suivre la précision dans votre espace Génie au fil du temps. Lorsque vous ouvrez les benchmarks d’un espace, une liste horodatée des exécutions d’évaluation s’affiche sous l’onglet Évaluations . Si aucune exécution d’évaluation n’est trouvée, consultez Ajouter des questions de benchmark ou exécuter des questions de benchmark.

Écran Évaluations, comme décrit dans le texte qui suit.

L’onglet Évaluations affiche une vue d’ensemble des évaluations et de leurs performances signalées dans les catégories suivantes :

Nom de l’évaluation : horodatage qui indique quand une exécution d’évaluation s’est produite. Cliquez sur l’horodatage pour afficher les détails de cette évaluation. Statut d’exécution : indique si l’évaluation est terminée, suspendue ou si elle a échoué. Si une exécution d’évaluation inclut des questions de référence qui n’ont pas de réponses SQL prédéfinies, elle est marquée pour révision dans cette colonne. Précision : évaluation numérique de la précision pour toutes les questions de référence. Pour les exécutions d’évaluation qui nécessitent une révision manuelle, une mesure de précision n’apparaît qu’après la révision de ces questions. Créée par : indique le nom de l’utilisateur qui a exécuté l’évaluation.

Passer en revue les évaluations individuelles

Vous pouvez passer en revue les évaluations individuelles pour obtenir un aperçu détaillé de chaque réponse. Vous pouvez modifier l’évaluation pour toute question et mettre à jour tous les éléments qui ont besoin d’une révision manuelle.

Pour vérifier des évaluations individuelles :

En haut de l’espace Génie, cliquez sur Benchmark.
Cliquez sur l’horodatage pour toute évaluation dans la colonne Nom de l’évaluation pour ouvrir une vue détaillée de cette exécution de test.
Utilisez la liste des questions sur le côté gauche de l’écran pour afficher une vue détaillée de chaque question.
Passez en revue et comparez la réponse du résultat du modèle à la réponse de la réalité du terrain.

Pour les résultats évalués comme incorrects, une explication apparaît pour décrire pourquoi le résultat a été évalué comme Mauvais. Cela vous aide à comprendre des différences spécifiques entre la sortie générée et la vérité de base attendue.

Note

Les résultats de ces réponses apparaissent dans les détails de l’évaluation pendant une semaine. Après une semaine, ces résultats ne seront plus visibles. L’instruction SQL générée et l’exemple d’instruction SQL sont conservés.
Cliquez sur Mettre à jour la vérité au sol pour enregistrer la réponse comme nouvelle vérité de terrain pour cette question. Cela est utile si aucune vérité terrestre n’existe, ou si la réponse est meilleure ou plus précise que l’énoncé de vérité terrestre existant.
Cliquez sur sur le libellé pour modifier l’évaluation.

Marquez chaque résultat comme Bon ou Mauvais pour obtenir un score précis pour cette évaluation.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-06-11