Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Important
Cette fonctionnalité est disponible en préversion publique.
Cette page décrit la détection des anomalies, ce qu’elle surveille et comment l’utiliser.
Important
La détection d’anomalie utilise le stockage par défaut pour stocker les résultats d’analyse dans la system.data_quality_monitoring.table_results table système. Vous n’êtes pas facturé pour ce stockage.
Qu’est-ce que la détection d’anomalie ?
La détection des anomalies vous permet de surveiller la qualité des données sur toutes les tables d’un schéma. En analysant les modèles historiques, Azure Databricks évalue automatiquement l’exhaustivité et l’actualisation de chaque table. Les résultats sont disponibles dans l’Explorateur de catalogues.
Exigences
- Espace de travail avec Unity Catalog activé
- L'informatique sans serveur doit être disponible dans votre espace de travail (activée par défaut dans les espaces de travail avec Unity Catalog).
- Pour activer la détection d’anomalies sur un schéma, vous devez disposer de privilèges MANAGE ou MANAGE SCHEMACATALOG sur le schéma de catalogue.
- Pour afficher l’état de l’indicateur de santé des tables, vous avez besoin des privilèges SELECT ou BROWSE.
Comment fonctionne la détection des anomalies ?
Azure Databricks crée un processus en arrière-plan qui surveille les tables pour la fraîcheur et la complétude.
L’actualisation fait référence à la façon dont une table a été mise à jour récemment. La surveillance de la qualité des données analyse l’historique des validations dans une table et génère un modèle par table pour prédire l’heure de la validation suivante. Si une validation est inhabituellement tardive, la table est marquée comme obsolète.
L’exhaustivité fait référence au nombre de lignes censées être écrites dans la table au cours des 24 dernières heures. La surveillance de la qualité des données analyse le nombre de lignes historiques et, en fonction de ces données, prédit un nombre attendu de lignes. Si le nombre de lignes validées au cours des dernières 24 heures est inférieur à la limite inférieure de cette plage, la table est marquée comme incomplète.
Azure Databricks utilise l’analyse de données intelligente pour automatiser les fréquences de balayage des tables. L’analyse intelligente met en avant les tables à fort impact, déterminées par la popularité et l’utilisation en aval, et réduit la fréquence de l'analyse pour les tables moins critiques. Pour exclure manuellement des tables, utilisez l’API Créer un moniteur ou mettre à jour une API Monitor et spécifiez les tables exclues dans le excluded_table_full_names paramètre. Pour plus d’informations, voir la Documentation d’API.
La détection d’anomalies ne modifie pas les tables qu’elle surveille, ni n’ajoute de surcharge aux travaux qui remplissent ces tables.
Note
L’actualisation des événements, basée sur les colonnes de temps d’événement et la latence d’ingestion, était disponible uniquement pour les utilisateurs de la version bêta de surveillance de la qualité des données. Dans la version actuelle, l’actualisation des événements n’est pas prise en charge.
Pourcentage nul pour la complétude
Important
Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez les aperçus Manage Azure Databricks.
Pourcentage de valeurs nulles ajoute des détails de qualité supplémentaires à la complétude. Pourcentage null est le pourcentage de lignes écrites dans la table dans les dernières 24 heures censées avoir des valeurs Null pour une colonne donnée. La surveillance de la qualité des données analyse la tendance historique de chaque colonne et, en fonction de ces données, prédit une plage. Si le pourcentage null pour une colonne au cours des dernières 24 heures est supérieur à la limite supérieure de cette plage, une table est marquée comme incomplète.
Activer la détection d’anomalies sur un schéma
Pour activer la détection d’anomalies sur un schéma, accédez au schéma dans le catalogue Unity.
Dans la page de schéma, cliquez sur l’onglet Détails .
Cliquez sur Activer. Dans la boîte de dialogue Surveillance de la qualité des données , vérifiez que la détection des anomalies est activée, puis cliquez sur Enregistrer.
Une analyse est lancée. Databricks analyse automatiquement chaque table à la même fréquence qu’elle est mise à jour, fournissant des insights à jour sans nécessiter de configuration manuelle pour chaque table. Pour les schémas activés avant le 24 septembre 2025, Databricks a exécuté le moniteur sur les données historiques (« backtesting ») pour la première analyse, afin de vérifier la qualité de vos tables comme si la surveillance de la qualité des données avait été activée sur votre schéma il y a deux semaines.
Une fois l’analyse terminée, vous pouvez afficher les résultats de détection des anomalies pour vos tables de la manière suivante :
- Les indicateurs de santé apparaissent dans l'Explorateur du catalogue pour chaque table d'un schéma. Consultez les indicateurs de santé.
- Sous l’onglet Détails d’un schéma avec surveillance de la qualité des données activée, cliquez sur Afficher les résultats, puis affichez les résultats dans La surveillance de la qualité des données. Consultez Afficher les résultats de surveillance de la qualité des données dans l’interface utilisateur.
- Les problèmes de qualité détectés sont consignés dans la table système de sortie. Consultez Examiner les résultats enregistrés de la détection des anomalies.
Désactiver la détection des anomalies
Pour désactiver la détection des anomalies :
Cliquez sur l’icône de crayon.
Dans la boîte de dialogue Surveillance de la qualité des données , cliquez sur le bouton bascule.
Important
Lorsque vous désactivez la détection des anomalies, le travail de détection des anomalies et toutes les tables et informations de détection d’anomalies sont supprimés. Cette opération est irréversible.
Cliquez sur Enregistrer.
Indicateurs de santé
Après avoir activé la détection des anomalies sur un schéma, les indicateurs d’intégrité apparaissent sur les pages de vue d’ensemble du schéma et de la table dans l’Explorateur de catalogues. L’indicateur d’intégrité affiche un résumé de l’intégrité des tableaux pour les consommateurs de données et les utilisateurs professionnels sans qu’ils puissent accéder à l’interface utilisateur de surveillance de la qualité des données. Les utilisateurs ont besoin de l’autorisation SELECT ou de l’autorisation BROWSE pour afficher l’état de l’indicateur d’intégrité.
Le tableau suivant décrit l'état de chaque indicateur de santé :
| État | Description |
|---|---|
| Healthy | Toutes les vérifications de détection d’anomalies ont été réussies lors de l’analyse la plus récente. |
| Malsain | Une ou plusieurs vérifications ont détecté une anomalie, telle qu’un problème d’actualisation ou d’exhaustivité. |
| Formation | La détection d’anomalies crée un modèle de base à partir de données historiques. Les tables nouvellement surveillées affichent cet état jusqu’à ce que le modèle ait suffisamment de données pour évaluer la qualité. |
| Error | La détection d’anomalie a rencontré une erreur lors de la surveillance de cette table. |
| Exclu | La table est explicitement exclue de la détection des anomalies. |
| Non activé | La détection d’anomalie n’est pas activée sur le schéma contenant cette table. |
Note
L'analyse intelligente peut retarder le remplissage des indicateurs de santé de certains tableaux jusqu'à deux semaines si le tableau a été ignoré lors du scannage initial. L'indicateur de santé est renseigné lors du prochain balayage planifié.
Afficher les résultats de la surveillance de la qualité des données dans l’interface utilisateur
Important
Le 7 octobre 2025, Databricks a publié une nouvelle version de l’interface utilisateur de surveillance de la qualité des données. Les schémas activés pour la surveillance de la qualité des données sur ou après cette date utilisent automatiquement cette nouvelle interface utilisateur. Cette section décrit cette dernière version de l’interface utilisateur.
Pour plus d’informations sur l’interface utilisateur héritée, consultez le tableau de bord de qualité des données (hérité).
Databricks vous recommande d’activer la nouvelle version pour tous vos schémas existants.
Pour activer la nouvelle version, cliquez sur le bouton bascule Surveillance de la qualité des données pour désactiver la fonctionnalité, puis cliquez à nouveau pour le réactiver.
Après avoir activé la surveillance de la qualité des données sur un schéma, vous pouvez ouvrir la page des résultats en cliquant sur Afficher les résultats. Vous pouvez également accéder aux résultats de tous les schémas pour lesquels la surveillance est activée dans l’Explorateur de catalogues.
L’interface utilisateur des résultats contient des listes déroulantes pour le catalogue et le schéma. Lorsque vous sélectionnez un catalogue, la liste déroulante de schémas est remplie avec des schémas dans ce catalogue sur lequel la surveillance de la qualité des données est activée.
Si vous avez les privilèges MANAGE ou SELECT sur le catalogue, vous pouvez afficher les incidents au niveau du catalogue. Pour afficher tous les incidents d’un catalogue, sélectionnez Tous les schémas dans le menu déroulant Schéma .
Pour afficher les incidents d’un schéma spécifique, vous devez également disposer des privilèges MANAGE ou SELECT sur ce schéma. La sélection d’un schéma affiche ensuite les incidents pour ce schéma uniquement.
La page de résultats affiche une section récapitulative en haut, qui affiche la qualité globale des données pour l’étendue sélectionnée, y compris le pourcentage de tables saines et le pourcentage de schémas/tables actuellement surveillés. Vous trouverez ci-dessous une table répertoriant les incidents dans toutes les tables surveillées de l’étendue sélectionnée. Utilisez les boutons pour afficher des tables Non saines, saines ou d’erreur .
Le tableau suivant décrit les colonnes, qui sont légèrement différentes selon que vous sélectionnez Non sain, Sain ou Erreur.
| Colonne | Description |
|---|---|
| État |
Healthy, Unhealthy, ou Training. |
| Première détection | Quand le premier incident a été détecté. Apparaît uniquement dans l’onglet Non sain . |
| Dernier scanné | Lorsque la table a été analysée pour la dernière fois. Apparaît uniquement sous l’onglet Sain . |
| Reason | Indique si la table n’est pas saine en raison de la fraîcheur ou de l’exhaustivité. Apparaît uniquement dans l’onglet Non sain . |
| Cause racine | Informations sur les travaux en amont contribuant au problème (consultez Examiner les résultats consignés de la détection des anomalies pour plus d’informations). Apparaît uniquement dans l’onglet Non sain . |
| Impact | Mesure qualitative de l’impact en aval (élevé, moyen ou faible), en fonction du nombre de tables et de requêtes en aval affectées. |
| Fréquence d’analyse | Fréquence à laquelle la table a été scannée au cours de la semaine dernière. |
| Results | Lien vers la page de qualité de table dans laquelle vous pouvez afficher les tendances historiques et les visualisations expliquant pourquoi une anomalie a été détectée. |
| État d’erreur | Message d’erreur. Apparaît uniquement sous l’onglet Erreur . |
| Détails | Détails sur le message d’erreur. Apparaît uniquement sous l’onglet Erreur . |
Afficher les résultats au niveau du metastore
Cette section fournit un modèle que vous pouvez importer dans votre espace de travail. Ce modèle crée un tableau de bord qui vous permet d’afficher tous les résultats de qualité dans le metastore.
Pour utiliser ce modèle, vous devez avoir accès à la system.data_quality_monitoring.table_results table. Par défaut, seuls les administrateurs de compte ont accès à ce tableau. Ils peuvent accorder l’accès à d’autres personnes en fonction des besoins.
Comment utiliser le modèle
Suivez ces étapes :
- Téléchargez le fichier de modèle : metastore-quality-dashboard.lvdash.json.
- Dans la barre latérale de l’espace de travail, cliquez sur
Tableaux de bord. - Dans le coin supérieur droit, sélectionnez Importer un tableau de bord à partir d’un fichier dans le menu déroulant Créer un tableau de bord .
- Dans la boîte de dialogue, cliquez sur Choisir un fichier, accédez au fichier de modèle, puis cliquez sur Importer le tableau de bord.
Le fichier est importé et le tableau de bord s’affiche.
Détails de la qualité des tables
L’interface utilisateur détails de la qualité des tables vous permet d’approfondir les tendances et de comprendre pourquoi les anomalies ont été détectées pour des tables spécifiques dans votre schéma. Vous pouvez accéder à cette vue de plusieurs façons :
- À partir de l’interface utilisateur des résultats (nouvelle expérience), cliquez sur le lien de révision dans la liste des incidents.
- À partir du tableau de bord de surveillance (tableau de bord Lakeview hérité), cliquez sur le nom de la table sous l’onglet Vue d’ensemble de la qualité.
- À partir de la visionneuse de table UC, en accédant à l’onglet Qualité de la page de table.
Toutes les options vous permettent d’afficher la même vue des Détails de la qualité de la table pour la table sélectionnée.
Pour un tableau donné, l’interface utilisateur affiche des résumés de chaque contrôle de qualité pour le tableau, avec des graphiques des valeurs prédites et observées à chaque point d'évaluation. Les graphiques tracent les résultats de la dernière semaine de données.
Si le tableau a échoué aux contrôles de qualité, l’interface utilisateur affiche également tous les travaux en amont identifiés comme cause première.
Configurer des alertes
Pour configurer une alerte Databricks SQL dans la table des résultats de sortie, consultez Alertes pour la détection des anomalies.
Limites
- La détection d’anomalie ne prend pas en charge les vues ou les tables externes.
- La détermination de l’exhaustivité ne tient pas compte des métriques telles que la fraction de valeurs null, zéro ou NaN.
Détection d’anomalie héritée
Les sections suivantes couvrent deux fonctionnalités héritées : le tableau de bord de qualité des données et la configuration du travail de détection des anomalies. La version actuelle de la détection d’anomalies n’inclut pas ces fonctionnalités. Le tableau de bord a été remplacé par l’interface utilisateur des résultats de surveillance de la qualité des données.
Tableau de bord de qualité des données (hérité)
Tableau de bord de qualité des données (hérité)
Note
Le tableau de bord de surveillance de la qualité des données était disponible uniquement pour les utilisateurs d’origine. Dans la version actuelle, utilisez Afficher les résultats de surveillance de la qualité des données dans l’interface utilisateur.
La première exécution du moniteur de qualité des données crée un tableau de bord pour résumer les résultats et les tendances dérivés de la table de journalisation. Le tableau de bord est automatiquement rempli avec des insights pour le schéma analysé. Un tableau de bord unique est créé par espace de travail à ce chemin d’accès : /Shared/Databricks Quality Monitoring/Data Quality Monitoring.
Vue d’ensemble de la qualité
L’onglet Vue d’ensemble de la qualité affiche un résumé de l’état de qualité le plus récent des tableaux de votre schéma en fonction de l’évaluation la plus récente.
Pour commencer, vous devez entrer la table de journalisation du schéma que vous souhaitez analyser pour remplir le tableau de bord.
La section supérieure du tableau de bord affiche une vue d’ensemble des résultats de l’analyse.
Vous trouverez ci-dessous un tableau répertoriant les incidents de qualité par impacts. Toutes les causes racines identifiées sont affichées dans la root_cause_analysis colonne.
Sous le tableau des incidents liés à la qualité, se trouve un tableau des tables statiques identifiées qui n'ont pas été mises à jour depuis longtemps.
Définir des paramètres pour l’évaluation de la fraîcheur et de l’exhaustivité (hérité)
Définir des paramètres pour l’actualisation et l’évaluation de l’exhaustivité (hérité)
Note
À compter du 21 juillet 2025, la configuration des paramètres de travail n’est pas prise en charge pour les nouveaux clients. Si vous devez configurer les paramètres du travail, contactez Databricks.
Pour modifier les paramètres qui contrôlent le travail, par exemple la fréquence à laquelle le travail s’exécute ou le nom de la table de résultats journalisées, vous devez modifier les paramètres du travail sous l’onglet Tâches de la page de travail.
Les sections suivantes décrivent des paramètres spécifiques. Pour plus d’informations sur la définition des paramètres de tâche, consultez Configurer les paramètres de tâche.
Programmation et notifications (ancien)
Pour personnaliser la planification du travail ou pour configurer des notifications, utilisez les paramètres Schedules &Triggers sur la page travaux. Consultez Automatisation des travaux avec des planifications et des déclencheurs.
Nom de la table de journalisation (hérité)
Pour modifier le nom de la table de journalisation ou enregistrer la table dans un autre schéma, modifiez le paramètre logging_table_name de tâche de travail et spécifiez le nom souhaité. Pour enregistrer la table de journalisation dans un autre schéma, spécifiez le nom complet de 3 niveaux.
Personnaliser les évaluations freshness et completeness (hérité)
Tous les paramètres de cette section sont facultatifs. Par défaut, la détection d’anomalies détermine les seuils en fonction d’une analyse de l’historique de la table.
Ces paramètres sont des champs à l’intérieur du paramètre metric_configsde tâche . Le format d’une metric_configs chaîne JSON avec les valeurs par défaut suivantes :
[
{
"disable_check": false,
"tables_to_skip": null,
"tables_to_scan": null,
"table_threshold_overrides": null,
"table_latency_threshold_overrides": null,
"static_table_threshold_override": null,
"event_timestamp_col_names": null,
"metric_type": "FreshnessConfig"
},
{
"disable_check": true,
"tables_to_skip": null,
"tables_to_scan": null,
"table_threshold_overrides": null,
"metric_type": "CompletenessConfig"
}
]
Les paramètres suivants peuvent être utilisés pour les évaluations freshness et completeness.
| Nom du champ | Description | Exemple |
|---|---|---|
tables_to_scan |
Seules les tables spécifiées sont analysées. | ["table_to_scan", "another_table_to_scan"] |
tables_to_skip |
Les tables spécifiées sont ignorées pendant l’analyse. | ["table_to_skip"] |
disable_check |
Le scan n'est pas exécuté. Utilisez ce paramètre si vous souhaitez désactiver uniquement l’analyse freshness ou uniquement l’analyse completeness . |
true, false |
Les paramètres suivants s’appliquent uniquement à l’évaluation freshness :
| Nom du champ | Description | Exemple |
|---|---|---|
event_timestamp_col_names |
Liste des colonnes d’horodatage que les tables de votre schéma peuvent avoir. Si une table comporte l’une de ces colonnes, elle est marquée Unhealthy si la valeur maximale de cette colonne est dépassée. L’utilisation de ce paramètre peut augmenter le temps d’évaluation et le coût. |
["timestamp", "date"] |
table_threshold_overrides |
Dictionnaire composé de noms de tables et de seuils (en secondes) qui spécifient l’intervalle maximal depuis la dernière mise à jour de la table avant de marquer une table comme Unhealthy. |
{"table_0": 86400} |
table_latency_threshold_overrides |
Dictionnaire composé de noms de tables et de seuils de latence (en secondes) qui spécifient l’intervalle maximal depuis le dernier timestamp dans la table avant de marquer une table comme Unhealthy. |
{"table_1": 3600} |
static_table_threshold_override |
Durée (en secondes) avant qu’une table soit considérée comme une table statique (autrement dit, une table qui n’est plus mise à jour). | 2592000 |
Le paramètre suivant s’applique uniquement à l’évaluation completeness :
| Nom du champ | Description | Exemple |
|---|---|---|
table_threshold_overrides |
Dictionnaire composé de noms de tables et de seuils de volume de lignes (spécifiés en tant qu’entiers). Si le nombre de lignes ajoutées à une table au cours des 24 heures précédentes est inférieur au seuil spécifié, la table est marquée Unhealthy. |
{"table_0": 1000} |