Partager via


Leçon 1 : Création de la base de connaissances DQS fournisseurs

Dans cette leçon, vous allez créer une base de connaissances DQS nommée Fournisseurs avec les connaissances (métadonnées) sur les données des fournisseurs. Vous utilisez la base de connaissances pour effectuer les activités de nettoyage et de correspondance sur les données des fournisseurs d’entrée. L’activité de nettoyage identifie les données incorrectes/non valides, corrige les données incorrectes, propose des corrections/suggestions, normalise les données et enrichit les données avec plus d’informations. L’activité correspondante compare les données et identifie des enregistrements similaires (mais légèrement différents) dans les données qui vous aident à supprimer des doublons sur les données.

Vous pouvez utiliser des processus interactifs et assistés par ordinateur pour créer, créer et gérer une base de connaissances. Les connaissances d’une base de connaissances sont conservées dans des domaines, chacun étant spécifique à un champ de données dans les données que vous souhaitez nettoyer et/ou faire correspondre.

Dans cette leçon, vous effectuez les tâches suivantes pour créer la base de connaissances Fournisseurs :

  • Créez une base de connaissances DQS nommée Fournisseurs. Vous pouvez créer une base de connaissances de plusieurs façons. Vous pouvez créer une base de connaissances à partir de zéro ou la générer en fonction d’une base de connaissances existante ou en important un fichier DQS (.dqs) qui contient une base de connaissances prédéfinie et exportée, ou en effectuant une activité de découverte des connaissances sur des exemples de données. Dans ce tutoriel, vous allez créer la base de connaissances à partir de zéro.

  • Créez des domaines dans la base de connaissances Fournisseurs que vous utilisez pour nettoyer les données et les données correspondantes pour identifier les doublons. créez des domaines pour les champs de données que vous souhaitez utiliser dans les activités de nettoyage et de correspondance, et non pour la totalité des champs de données.

  • Ajoutez des valeurs à un domaine en ajoutant manuellement des valeurs, en important des valeurs à partir d’un fichier Excel, en effectuant une activité de découverte des connaissances sur des exemples de données et en important des valeurs de projet à partir d’un projet de nettoyage. Vous pouvez également importer des valeurs de domaine en important un fichier DQS qui contient des propriétés et des valeurs de domaine, que vous n’effectuez pas dans le didacticiel.

  • Définissez des règles pour un domaine. Une règle de domaine est une condition utilisée par DQS pour valider, corriger et normaliser les valeurs de domaine.

  • Définissez des relations basées sur des termes pour un domaine. Une relation basée sur des termes vous permet d’apporter une correction à un terme qui fait partie d’une valeur dans un domaine. Par exemple, dans la valeur Contoso Inc., Inc. est un terme qui peut être défini comme Incorporé. Cela permet de normaliser les données ainsi que d’identifier les doublons. Par exemple, Contoso Inc. et Contoso Incorporated peuvent être considérés comme des doublons.

  • Spécifiez des synonymes dans les valeurs de domaine. Vous pouvez définir deux valeurs ou plus en tant que synonymes et définir l’une d’elles comme valeur de début, qui remplace ses valeurs de synonymes pendant une activité de nettoyage pour normaliser les données.

  • Créez un domaine composite nommé Address Validation qui comprend les domaines Address line, City, State et Zip. Un domaine composite est un domaine qui se compose d’un ou plusieurs domaines uniques. Il vous permet de créer une règle qui implique plusieurs domaines. Par exemple, vous pouvez définir une règle : si la ville est Los Angeles, l'état doit être CA, où la ville et l'état sont deux domaines distincts.

  • Configurez et utilisez un service de données de référence. La fonctionnalité Service de données de référence dans Data Quality Services (DQS) vous permet de vous abonner à des fournisseurs de données de référence tiers et de nettoyer et d’enrichir vos données métier en les validant par rapport à leurs données de haute qualité. Vous pouvez utiliser les services des principaux fournisseurs DQS à partir de DQS pour normaliser, corriger ou enrichir vos données pendant le processus de nettoyage. Dans ce tutoriel, vous allez apprendre à configurer votre environnement DQS pour utiliser un service de données de référence sur la Place de marché Azure et utiliser le service associé au domaine composite Validation d’adresse pour nettoyer les données d’adresse.

  • Publiez la base de connaissances afin que celle-ci puisse être utilisée dans les activités de nettoyage et de correspondance.

Étape suivante

Tâche 1 : Création d’une base de connaissances et de domaines