Partager via


Surveillance de la qualité des données

La surveillance de la qualité des données vous permet de garantir la qualité de toutes vos ressources de données dans le catalogue Unity. La surveillance de la qualité des données inclut les fonctionnalités suivantes :

  • Détection des anomalies. La détection d’anomalies permet une surveillance évolutive de la qualité des données en un clic. Il surveille toutes les tables d’un schéma à l’aide d’une analyse intelligente qui hiérarchise les tables importantes et ignore les tables à faible impact. Databricks évalue automatiquement la qualité des données en analysant les modèles de données historiques pour évaluer l’actualisation et l’exhaustivité de chaque table. Consultez la détection des anomalies.
  • Profilage des données. Le profilage des données fournit des statistiques récapitulatives des données d’une table. Vous pouvez également l’utiliser pour suivre les performances des applications GenAI, des modèles Machine Learning et des points de terminaison de service de modèle en surveillant les tables d’inférence qui contiennent des entrées et des prédictions de modèle. Consultez le profilage des données.

Le profilage des données était anciennement appelé Lakehouse Monitoring.

Pourquoi utiliser la détection d’anomalie ?

Pour tirer des insights utiles de vos données, vous devez avoir confiance en la qualité de vos données. La détection d’anomalies surveille les tables activées pour la fraîcheur et l’exhaustivité.

L’actualisation fait référence à la façon dont une table a été mise à jour récemment. La détection d’anomalie analyse l’historique des validations dans une table et génère un modèle par table pour prédire l’heure de la validation suivante. Si une validation est inhabituellement tardive, la table est marquée comme obsolète.

L’exhaustivité fait référence au nombre de lignes censées être écrites dans la table au cours des 24 dernières heures. La détection d’anomalies analyse le nombre de lignes historiques et, en fonction de ces données, prédit une plage de lignes attendue. Si le nombre de lignes validées au cours des dernières 24 heures est inférieur à la limite inférieure de cette plage, la table est marquée comme incomplète.

Pourquoi utiliser le profilage des données ?

Le profilage des données fournit des mesures quantitatives qui vous aident à suivre et à confirmer la qualité et la cohérence de vos données au fil du temps. Le profilage des données capture les métriques historiques de la distribution des données d’une table ou des performances du modèle correspondant, qui peuvent être utilisées pour des statistiques récapitulatives rapides. Vous pouvez utiliser ces métriques pour surveiller une table et envoyer des alertes pour les modifications.

Le profilage des données vous aide à répondre aux questions suivantes :

  • À quoi ressemble l’intégrité des données et comment change-t-elle au fil du temps ? Par exemple, quelle est le pourcentage de valeurs nulles ou zéro dans les données actuelles et a-t-il augmenté ?
  • À quoi ressemble la distribution statistique des données et comment change-t-elle au fil du temps ? Par exemple, quel est le 90e centile d’une colonne numérique ? Ou, quelle est la distribution des valeurs dans une colonne catégorielle et en quoi diffère-t-elle d’hier ?
  • Existe-t-il une dérive entre les données actuelles et une base de référence connue, ou entre les fenêtres de temps successives des données ?
  • À quoi ressemble la distribution statistique ou la dérive d’un sous-ensemble ou d’une tranche de données ?
  • Comment les entrées et les prédictions de modèle ML évoluent-elles au fil du temps ?
  • Comment les performances du modèle évoluent-elles au fil du temps ? La version A du modèle est-elle plus performante que la version B ?

En outre, le profilage des données vous permet de contrôler la granularité temporelle des observations et de configurer des métriques personnalisées.

La surveillance de la qualité des données ne modifie pas les tables qu’elle surveille, ni n’ajoute de surcharge aux travaux qui remplissent ces tables.