Classifieurs personnalisés

Important

Cette fonctionnalité est en version bêta. Les administrateurs d’espace de travail peuvent contrôler l’accès à cette fonctionnalité à partir de la page Aperçus . Consultez Gérer les préversions d’Azure Databricks.

Cette page explique comment créer et gérer des classifieurs personnalisés pour la classification des données Databricks dans le catalogue Unity. Les classifieurs personnalisés étendent le système de classification intégré pour vous permettre de détecter des données sensibles spécifiques à votre organisation, telles que les ID d’employés internes, les codes de produit propriétaires, les identificateurs de fournisseur ou les numéros de compte partenaire.

Pour créer un classifieur personnalisé, vous sélectionnez une balise régie et fournissez des exemples de colonnes qui contiennent des valeurs représentatives pour la classe. La classification des données détecte ensuite cette classe pendant ses analyses régulières.

À l’aide de classifieurs personnalisés, vous pouvez :

  • Balisez des données spécifiques à l’organisation : détectez et configurez le balisage automatique pour les types de données uniques à votre organisation, tels que les ID d’employés, les codes de partenaire ou les numéros de compte internes.
  • Étendre les contrôles de gouvernance : appliquez des masques au niveau des colonnes ABAC aux données sensibles.

Note

La configuration du classifieur personnalisé et les métadonnées de détection générées par Databricks à partir de vos exemples de colonnes sont chiffrées au repos. Vous pouvez utiliser une clé gérée par le client (CMK) sur votre catalogue système pour gérer la clé de chiffrement. La configuration d’une clé CMK sur le catalogue système chiffre toutes les données du catalogue système, pas seulement les données de classifieur personnalisées.

Configurez une clé gérée par le client sur le catalogue système dans l’Explorateur de catalogues.

Requirements

  • La classification des données doit être activée sur au moins un catalogue dans le metastore. Consultez Utiliser la classification des données.
  • Votre espace de travail doit disposer du calcul sans serveur (activé par défaut dans les espaces de travail avec Unity Catalog).
  • Pour créer, modifier ou supprimer un classifieur personnalisé, vous devez être administrateur de metastore.
  • Pour créer ou modifier un classifieur personnalisé, vous devez disposer ASSIGN de privilèges sur la balise régie utilisée par le classifieur. Consultez Gérer les autorisations sur les balises régies.
  • Pour sélectionner une colonne pour le classifieur, vous devez avoir SELECT sur la table qui la contient.

Créer un classifieur personnalisé

  1. Dans la page résultats de la classification des données, cliquez sur Gérer les classifieurs personnalisés.

    Bouton Gérer les classifieurs personnalisés dans la page des résultats de la classification des données.

  2. Dans le volet latéral Gérer les classifieurs personnalisés , cliquez sur Créer un classifieur personnalisé.

  3. Sélectionnez une balise. Choisissez une balise régie existante, ou cliquez sur Créer une balise pour définir une balise incluse. Si la balise a des valeurs autorisées, choisissez la valeur spécifique que vous souhaitez détecter.

    Créer un classifieur personnalisé étape 1 : sélectionnez une balise régie.

  4. Sélectionnez des exemples de colonnes. Parcourez l’arborescence du catalogue et sélectionnez des colonnes qui contiennent des valeurs représentatives pour la classe. Choisissez des colonnes dont les valeurs sont typiques de ce que vous souhaitez détecter : des exemples plus larges et plus variés produisent des règles de détection plus précises.

    Créer un assistant classifieur personnalisé étape 2 : sélectionnez des exemples de colonnes.

  5. Cliquez sur Créer.

Les détections du classifieur personnalisé apparaissent généralement sur la page de résultats dans quelques heures.

Note

Un classifieur personnalisé s’applique à tous les catalogues du metastore pour lesquels la classification des données est activée. La définition de la portée par catalogue ou par schéma n’est pas prise en charge.

Gérer des classifieurs personnalisés

Le panneau latéral Gérer les classifieurs personnalisés répertorie tous les classifieurs personnalisés configurés pour le metastore. Dans ce panneau, vous pouvez effectuer une recherche par nom de balise, modifier les exemples de colonnes d’un classifieur existant ou supprimer un classifieur.

Liste de classifieurs personnalisés dans le panneau latéral Gérer les classifieurs personnalisés.

Modifier un classifieur personnalisé

Pour mettre à jour les exemples de colonnes d’un classifieur personnalisé existant :

  1. Dans le panneau latéral Gérer les classifieurs personnalisés , sélectionnez le classifieur personnalisé que vous souhaitez modifier.
  2. Cliquez sur Modifier en regard de l’exemple de liste de colonnes.
  3. Ajouter ou supprimer des colonnes. L’exemple de limite de colonne s’applique toujours.
  4. Cliquez sur Enregistrer.

Les mises à jour prennent effet dans quelques heures. Les détections existantes de la configuration précédente restent en place.

La balise régie et la valeur de balise ne peuvent pas être modifiées après la création d’un classifieur personnalisé. Pour basculer vers une autre balise, supprimez le classifieur personnalisé et créez-en une.

Supprimer un classifieur personnalisé

  1. Dans le panneau latéral Gérer les classifieurs personnalisés , sélectionnez le classifieur personnalisé que vous souhaitez supprimer.
  2. Cliquez sur Supprimer.
  3. Confirmez la suppression.
  4. Vérifiez que le classifieur est supprimé du panneau latéral Gérer les classifieurs personnalisés .

Lorsque vous supprimez un classifieur personnalisé :

  • Aucune nouvelle détection n’est produite pour ce classifieur.
  • Les détections existantes sont supprimées de la page des résultats de la classification des données.
  • Les balises déjà appliquées automatiquement aux colonnes ne sont pas supprimées automatiquement.

Classifieurs personnalisés suspendus

Si la génération ou la validation de la règle échoue, Azure Databricks suspend le classifieur personnalisé et affiche un avertissement dans la page de résultats de la classification des données. Un classifieur personnalisé suspendu ne produit aucune nouvelle détection.

Avertissement montrant qu’un ou plusieurs classifieurs personnalisés sont suspendus.

Pour résoudre une suspension, modifiez le classifieur personnalisé et remplacez les exemples de colonnes inaccessibles ou insuffisantes. Si la balise gérée ou la valeur de balise n’est plus valide, supprimez le classificateur personnalisé et créez-en un nouveau avec une balise valide.

Afficher les détections de classifieur personnalisées

Pour afficher les détections de classifieur personnalisées, suivez les mêmes étapes que pour les classifications intégrées. Consultez Afficher les résultats de classification.

Limitations

  • Vous pouvez créer un maximum de 50 classifieurs personnalisés par metastore.
  • Chaque classifieur personnalisé doit référencer entre 1 et 10 colonnes d’exemple pour fournir des données suffisantes pour la classification.
  • L’affectation de noms de balise régie est soumise aux règles de stratégie de balise.
  • Les classifieurs personnalisés s’appliquent à tous les catalogues compatibles avec la classification des données dans le metastore. La définition de la portée par catalogue ou par schéma n’est pas prise en charge.
  • La balise régie utilisée par un classifieur personnalisé ne peut pas être modifiée après la création. Pour utiliser une balise différente, supprimez et recréez le classifieur personnalisé.
  • Les classifieurs personnalisés nouveaux et mis à jour s’appliquent uniquement aux analyses de classification des données suivantes. Les résultats d’analyse existants ne sont pas reclassifiés automatiquement. Par conséquent, les détections pour les données précédemment analysées apparaissent une fois l’analyse suivante terminée.
  • Toutes les limitations de classification des données s’appliquent également aux classifieurs personnalisés, y compris les types de tables pris en charge. Consultez Limitations.

Troubleshooting

Les rubriques suivantes vous aident à résoudre les problèmes courants liés aux classifieurs personnalisés.

Un classifieur personnalisé est suspendu

Les causes courantes sont les suivantes :

  • Un ou plusieurs exemples de tables de référence de colonnes qui ont été supprimées ou renommées depuis la création du classifieur.
  • Les exemples de colonnes ne sont pas suffisamment représentatifs pour que le système apprenne une détection stable.
  • La balise régie n’est plus une balise régie, ou la valeur de la balise n’est plus valide.

Pour résoudre ce problème, modifiez le classifieur personnalisé avec un autre ensemble d’exemples de colonnes et attendez l’analyse suivante. Si la suspension est due à une balise ou une valeur de balise régie non valide, supprimez le classifieur personnalisé et créez-en un avec une balise valide.

Autorisation refusée lors de la création ou de la liste de classifieurs personnalisés

Vous devez être administrateur de metastore. La création ou la modification d’un classifieur personnalisé nécessite ASSIGN également des privilèges sur la balise régie. Consultez Spécifications.

Impossible de sélectionner un exemple de colonne

Vous devez avoir SELECT sur la table qui contient la colonne. Si vous ne disposez pas de SELECT sur la table, demandez au propriétaire de la table de vous l’accorder, ou choisissez une autre colonne d’exemple.

Ressources supplémentaires