Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Cet article illustre la création d’un profil de données à l’aide de l’interface utilisateur Databricks. Vous pouvez également utiliser l’API.
Pour accéder à l’interface utilisateur Databricks, procédez comme suit :
Dans la barre latérale gauche de l’espace de travail, cliquez sur
Pour ouvrir l’Explorateur de catalogues.
Accédez à la table pour effectuer le profilage.
Cliquez sur l’onglet Qualité .
Si la détection d’anomalie n’est pas activée pour ce schéma, cliquez sur Activer.
Si la détection d’anomalie est activée pour ce schéma, cliquez sur Configurer.
Dans la boîte de dialogue Surveillance de la qualité des données , dans le champ Profilage des données , cliquez sur Configurer.
Dans la boîte de dialogue, sélectionnez le type de profil. Les sections suivantes décrivent les options de type de profil et les sélections supplémentaires pour chaque type.
Profiling
Dans le menu déroulant Type de profil, sélectionnez le type de profil que vous souhaitez créer. Les types de profil sont affichés dans le tableau.
| Type de profil | Description |
|---|---|
| Profil de série temporelle | Table contenant des valeurs mesurées au fil du temps. Ce tableau inclut une colonne d’horodatage. |
| Profil d’instantané | Toute table gérée Delta, table externe, vue, vue matérialisée ou table de streaming. La taille maximale de la table pour un profil de capture instantanée est de 4 To. Pour les tables plus volumineuses, utilisez plutôt des profils de série chronologique. |
| Profil d’inférence | Table contenant la sortie des valeurs prédites par un modèle de classification ou de régression machine learning. Ce tableau inclut un horodatage, un ID de modèle, des entrées de modèle (fonctionnalités), une colonne contenant des prédictions de modèle et des colonnes facultatives contenant des ID d’observation uniques et des étiquettes de vérité de base. Il peut également contenir des métadonnées, telles que des informations démographiques, qui ne sont pas utilisées comme entrée dans le modèle, mais peuvent être utiles pour les enquêtes d’équité et de biais ou d’autres tâches. |
Si vous sélectionnez TimeSeries ou Inference, des paramètres supplémentaires sont requis et sont décrits dans les sections suivantes.
Note
- Lorsque vous créez un profil de série chronologique ou d’inférence, le profil analyse uniquement les données des 30 jours précédant sa création. Une fois le profil créé, toutes les nouvelles données sont traitées.
- Les moniteurs définis sur les vues matérialisées ne prennent pas en charge le traitement incrémentiel.
Conseil / Astuce
Pour les profils TimeSeries et Inference, il est recommandé d’activer le flux de données modifiées (CDF) sur votre table. Lorsque la CDF est activée, seules les données nouvellement ajoutées sont traitées, plutôt que de réexécérer l’intégralité de la table toutes les actualisations. Cela rend l’exécution plus efficace et réduit les coûts tout en étendant le profilage sur de nombreuses tables.
TimeSeries profil
Pour un TimeSeries profil, vous devez effectuer les sélections suivantes :
- Spécifiez les granularités de métriques qui déterminent comment partitionner les données dans des fenêtres dans le temps.
- Spécifiez la colonne Timestamp, la colonne de la table qui contient l’horodatage. Le type de données de colonne timestamp doit être soit
TIMESTAMPun type qui peut être converti en horodatages à l’aide de lato_timestampfonction PySpark.
Inference profil
Pour un Inference profil, outre les granularités et l’horodatage, vous devez effectuer les sélections suivantes :
- Sélectionnez le type de problème, soit la classification, soit la régression.
- Spécifiez la colonne Prédiction, la colonne contenant les valeurs prédites du modèle.
- Spécifiez éventuellement la colonne Label, la colonne contenant la réalité terrain pour les prédictions du modèle.
- Spécifiez la colonne ID de modèle, la colonne contenant l’ID du modèle utilisé pour la prédiction.
Options avancées
Dans la section Options avancées , vous pouvez définir la planification, ajouter des notifications par e-mail, ajouter des métriques et des expressions de découpage personnalisées et modifier la configuration du profil par défaut.
Calendrier
Pour configurer un profil à exécuter selon une planification, sélectionnez Actualiser selon la planification , puis sélectionnez la fréquence et l’heure à laquelle le profil doit s’exécuter. Si vous ne souhaitez pas que le profil s’exécute automatiquement, sélectionnez Actualiser manuellement. Si vous sélectionnez Actualiser manuellement, vous pouvez actualiser les métriques ultérieurement à partir de l’onglet Qualité .
Notifications
Pour configurer les notifications par e-mail d’un profil, entrez l’e-mail à avertir et sélectionnez les notifications à activer. Jusqu’à 5 e-mails sont pris en charge par type d’événement de notification.
Metrics
Dans la section Métriques , vous pouvez choisir de modifier les paramètres par défaut suivants :
Nom du schéma des tables de métriques : schéma du catalogue Unity où les tables de métriques créées par le profil sont stockées. Cet emplacement doit être au format {catalog}. {schema}. Par défaut, il est défini sur le même emplacement de schéma que la table profilée. Vous pouvez spécifier un autre emplacement.
Répertoire des ressources : chemin absolu d’un répertoire existant pour stocker les ressources de profilage des données. Par défaut, les ressources sont stockées dans le répertoire par défaut : « /Users/{user_name}/databricks_lakehouse_monitoring/{table_name} ». Si vous entrez un autre emplacement dans ce champ, les ressources sont créées sous « /{table_name} » dans le répertoire que vous spécifiez. Ce répertoire peut se trouver n’importe où dans l’espace de travail. Pour les profils destinés à être partagés au sein d’une organisation, vous pouvez utiliser un chemin d’accès dans le répertoire « /Shared/ ».
Ce champ ne peut pas être laissé vide.
Vous pouvez également spécifier les paramètres suivants :
- Nom de la table de référence du catalogue Unity : nom d’une table ou d’une vue qui contient des données de référence pour la comparaison.
-
Expressions de découpage de métrique : les expressions de découpage vous permettent de définir des sous-ensembles de la table à profiler en plus de la table dans son ensemble. Pour créer une expression de découpage, cliquez sur Ajouter une expression et entrez la définition d’expression. Par exemple, l’expression
"col_2 > 10"génère deux tranches : une pourcol_2 > 10et une pourcol_2 <= 10. Dans un autre exemple, l’expression"col_1"génère une tranche pour chaque valeur unique danscol_1. Les données sont regroupées par chaque expression indépendamment, ce qui aboutit à une tranche distincte pour chaque prédicat et ses compléments. -
Métriques personnalisées : les métriques personnalisées apparaissent dans les tables de métriques comme n’importe quelle métrique intégrée.
Pour configurer une métrique personnalisée, cliquez sur Ajouter une métrique personnalisée.
- Entrez un nom pour la métrique personnalisée.
- Sélectionnez le type de métrique personnalisé. Choisissez parmi :
Aggregate,DerivedouDrift. - Dans la liste déroulante des colonnes d’entrée, sélectionnez les colonnes à appliquer à la métrique.
- Dans le champ Type de sortie , sélectionnez le type de données Spark de la métrique.
- Dans le champ Définition , entrez le code SQL qui définit la métrique personnalisée.
Modifier les paramètres de profil dans l’interface utilisateur
Une fois que vous avez créé un profil, vous pouvez apporter des modifications aux paramètres du profil en cliquant sur Configurer sous l’onglet Qualité .
Dans la section Profilage des données de la boîte de dialogue, cliquez sur Configurer.
Actualiser et afficher les résultats du profil dans l’interface utilisateur
Pour exécuter le profil manuellement, cliquez sur Afficher l’historique des actualisations. Une boîte de dialogue s’ouvre affichant tous les profils précédents. Cliquez sur Actualiser les métriques pour déclencher une mise à jour de profil.
Pour afficher l’historique d’actualisation, vous devez utiliser l’espace de travail Databricks à partir duquel le profilage des données a été activé.
Pour plus d’informations sur les statistiques stockées dans les tables de métriques de profil, consultez Surveiller les tables de métriques. Les tables de métriques sont des tables de catalogue Unity. Vous pouvez les interroger dans les notebooks ou dans l’Explorateur de requêtes SQL et les afficher dans l’Explorateur de catalogues.
Contrôler l’accès aux résultats de profil
Les tables de métriques et le tableau de bord créés par un profil appartiennent à l’utilisateur qui a créé le profil. Vous pouvez utiliser des privilèges de catalogue Unity pour contrôler l’accès aux tables de métriques. Pour partager des tableaux de bord dans un espace de travail, cliquez sur le bouton Partager en haut à droite du tableau de bord.
Supprimer un profil de l’interface utilisateur
Pour supprimer un profil de l’interface utilisateur, suivez les instructions fournies dans Modifier les paramètres du profil dans l’interface utilisateur pour ouvrir la boîte de dialogue Mettre à jour le profil . Dans le menu déroulant Mettre à jour , sélectionnez Supprimer.