Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
S’applique à :
SQL Server 2019 et versions antérieures d’Analysis Services
Azure Analysis Services
Fabric/Power BI Premium
Important
L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et a maintenant été abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez la compatibilité descendante des Analysis Services.
Cette rubrique décrit le contenu du modèle d’exploration de données spécifique aux modèles qui utilisent l’algorithme Microsoft Sequence Clustering. Pour obtenir une explication de la terminologie générale et statistique liée au contenu du modèle d’exploration de données qui s’applique à tous les types de modèles, consultez Contenu du modèle d’exploration de données (Analysis Services - Exploration de données).
Présentation de la structure d’un modèle de clustering de séquences
Un modèle de clustering de séquence a un nœud parent unique (NODE_TYPE = 1) qui représente le modèle et ses métadonnées. Le nœud parent, qui est étiqueté (All), a un nœud de séquence associé (NODE_TYPE = 13) qui répertorie toutes les transitions détectées dans les données d’apprentissage.
L’algorithme crée également un certain nombre de clusters, en fonction des transitions trouvées dans les données et d’autres attributs d’entrée inclus lors de la création du modèle, tels que les données démographiques des clients, etc. Chaque cluster (NODE_TYPE = 5) contient son propre nœud de séquence (NODE_TYPE = 13) qui répertorie uniquement les transitions utilisées pour générer ce cluster spécifique. À partir du nœud de séquence, vous pouvez explorer pour afficher les détails des transitions d’état individuelles (NODE_TYPE = 14).
Pour obtenir une explication des transitions de séquence et d’état, avec des exemples, consultez l’algorithme microsoft Sequence Clustering.
Contenu du modèle d’un modèle de clustering de séquence
Cette section fournit des informations supplémentaires sur les colonnes du contenu du modèle d’exploration de données qui ont une pertinence particulière pour le regroupement de séquences.
CATALOGUE_DE_MODÈLES
Nom de la base de données où le modèle est stocké.
MODEL_NAME
Nom du modèle.
ATTRIBUTE_NAME
Toujours vide.
NODE_NAME
Nom du nœud. Actuellement, la même valeur que NODE_UNIQUE_NAME.
NODE_UNIQUE_NAME
Nom unique du nœud.
NODE_TYPE
Un modèle de clustering de séquence génère les types de nœuds suivants :
| ID de type de nœud | Descriptif |
|---|---|
| 1 (Modèle) | Nœud racine pour le modèle |
| 5 (grappe) | Contient un nombre de transitions dans le cluster, une liste des attributs et des statistiques qui décrivent les valeurs du cluster. |
| 13 (Séquence) | Contient une liste de transitions incluses dans le cluster. |
| 14 (Transition) | Décrit une séquence d’événements sous la forme d’une table dans laquelle la première ligne contient l’état de départ, et toutes les autres lignes contiennent des états successifs, ainsi que des statistiques de prise en charge et de probabilité. |
NODE_GUID
Blanc.
NODE_CAPTION
Étiquette ou légende associée au nœud à des fins d’affichage.
Vous pouvez renommer les légendes du cluster pendant que vous utilisez le modèle ; Toutefois, le nouveau nom n’est pas conservé si vous fermez le modèle.
CHILDREN_CARDINALITY
Estimation du nombre d’enfants dont dispose le nœud.
Racine du modèle La valeur de cardinalité est égale au nombre de clusters plus un. Pour plus d’informations, consultez Cardinalité.
Nœuds de cluster La cardinalité est toujours 1, car chaque cluster a un seul nœud enfant, qui contient la liste des séquences dans le cluster.
Nœuds de séquence La cardinalité indique le nombre de transitions incluses dans ce cluster. Par exemple, la cardinalité du nœud de séquence pour la racine du modèle indique le nombre de transitions trouvées dans l’ensemble du modèle.
NOM_UNIQUE_PARENT
Nom unique du parent du nœud.
NULL est retourné pour tous les nœuds au niveau racine.
NODE_DESCRIPTION
Identique à la légende du nœud.
NODE_RULE
Toujours vide.
MARGINAL_RULE
Toujours vide.
Probabilité_de_Noeud
Racine du modèle Toujours 0.
Nœuds de cluster Probabilité ajustée du cluster dans le modèle. Les probabilités ajustées ne correspondent pas à 1, car la méthode de clustering utilisée dans le clustering séquentiel autorise l’appartenance partielle dans plusieurs clusters.
Nœuds de séquence Toujours 0.
Nœuds de transition Toujours 0.
MARGINAL_PROBABILITY
Racine du modèle Toujours 0.
Nœuds de cluster Même valeur que NODE_PROBABILITY.
Nœuds de séquence Toujours 0.
Nœuds de transition Toujours 0.
NODE_DISTRIBUTION
Tableau qui contient des probabilités et d’autres informations. Pour plus d’informations, consultez NODE_DISTRIBUTION Table.
NODE_SUPPORT
Nombre de transitions qui prennent en charge ce nœud. Par conséquent, s’il existe 30 exemples de séquence « Produit A suivi du produit B » dans les données d’apprentissage, la prise en charge totale est de 30.
Racine du modèle Nombre total de transitions dans le modèle.
Nœuds de cluster Prise en charge brute du cluster, ce qui signifie le nombre de cas d’entraînement qui contribuent aux cas de ce cluster.
Nœuds de séquence Toujours 0.
Nœuds de transition Pourcentage de cas dans le cluster qui représentent une transition spécifique. Peut être 0 ou avoir une valeur positive. Calculé en prenant en charge la prise en charge brute du nœud de cluster et en multipliant par la probabilité du cluster.
À partir de cette valeur, vous pouvez indiquer le nombre de cas de formation qui ont contribué à la transition.
MSOLAP_MODEL_COLUMN
Non applicable.
MSOLAP_NODE_SCORE
Non applicable.
MSOLAP_NODE_SHORT_CAPTION
Identique à NODE_DESCRIPTION.
Présentation des séquences, états et transitions
Un modèle de clustering de séquences a une structure unique qui combine deux types d’objets avec des types d’informations très différents : les premiers sont des clusters, et les secondes sont des transitions d’état.
Les clusters créés par le clustering séquentiel sont similaires à ceux créés par l’algorithme de clustering Microsoft. Chaque cluster a un profil et des caractéristiques. Toutefois, dans le clustering de séquences, chaque cluster contient également un nœud enfant unique qui répertorie les séquences de ce cluster. Chaque nœud de séquence contient plusieurs nœuds enfants qui décrivent les transitions d’état en détail, avec des probabilités.
Il y a presque toujours plus de séquences disponibles dans le modèle que celles que vous pouvez trouver dans un cas particulier, car les séquences peuvent être enchaînées. Microsoft Analysis Services stocke les pointeurs d’un état à l’autre afin de pouvoir compter le nombre de fois où chaque transition se produit. Vous pouvez également trouver des informations sur le nombre de fois où la séquence s’est produite et mesurer sa probabilité de se produire par rapport à l’ensemble entier des états observés.
Le tableau suivant résume la façon dont les informations sont stockées dans le modèle et la façon dont les nœuds sont liés.
| Nœud | Possède un nœud enfant | table NODE_DISTRIBUTION |
|---|---|---|
| Racine du modèle | Plusieurs nœuds de cluster Nœud avec séquences pour l’ensemble du modèle |
Répertorie tous les produits du modèle, avec prise en charge et probabilité. Étant donné que la méthode de clustering autorise l’appartenance partielle à plusieurs clusters, la prise en charge et la probabilité peuvent avoir des valeurs fractionnaires. Autrement dit, au lieu de compter un cas unique une seule fois, chaque cas peut potentiellement appartenir à plusieurs clusters. Par conséquent, lorsque l’appartenance finale au cluster est déterminée, la valeur est ajustée par la probabilité de ce cluster. |
| Nœud séquence pour le modèle | Plusieurs nœuds de transition | Répertorie tous les produits du modèle, avec prise en charge et probabilité. Étant donné que le nombre de séquences est connu pour le modèle, à ce niveau, les calculs pour la prise en charge et la probabilité sont simples : Support = nombre de cas Probabilité = probabilité brute de chaque séquence dans le modèle. Toutes les probabilités doivent correspondre à 1. |
| Nœuds de cluster individuels | Nœud avec des séquences pour ce cluster uniquement | Répertorie tous les produits d’un cluster, mais fournit des valeurs de prise en charge et de probabilité uniquement pour les produits caractéristiques du cluster. Le support représente la valeur de support ajustée pour chaque cas de ce cluster. Les valeurs de probabilité sont des probabilités ajustées. |
| Nœuds de séquence pour des clusters individuels | Plusieurs nœuds avec des transitions pour les séquences de ce cluster uniquement | Exactement les mêmes informations que dans les nœuds de cluster individuels. |
| Transitions | Aucun enfant | Répertorie les transitions pour le premier état associé. Le soutien est une valeur de soutien ajustée, indiquant les cas qui prennent part à chaque transition. La probabilité est la probabilité ajustée, représentée sous la forme d’un pourcentage. |
NODE_DISTRIBUTION Table
La table NODE_DISTRIBUTION fournit des informations détaillées sur la probabilité et la prise en charge des transitions et des séquences d’un cluster spécifique.
Une ligne est toujours ajoutée à la table de transition pour représenter les valeurs manquantes possibles. Pour plus d’informations sur ce que signifie la valeur manquante et sur la façon dont elle affecte les calculs, consultez Valeurs manquantes (Analysis Services - Exploration de données).
Les calculs pour la prise en charge et la probabilité diffèrent selon que le calcul s’applique aux cas d’entraînement ou au modèle terminé. Cela est dû au fait que la méthode de clustering par défaut, Expect Maximation (EM), suppose que tout cas peut appartenir à plusieurs clusters. Lors du calcul de la prise en charge des cas dans le modèle, il est possible d’utiliser des nombres bruts et des probabilités brutes. Toutefois, les probabilités d’une séquence particulière dans un cluster doivent être pondérées par la somme de toutes les combinaisons de séquences et de clusters possibles.
Cardinalité
Dans un modèle de clustering, la cardinalité du nœud parent indique généralement le nombre de clusters dans le modèle. Toutefois, un modèle de clustering de séquences a deux types de nœuds au niveau du cluster : un type de nœud contient des clusters et l’autre type de nœud contient une liste de séquences pour le modèle dans son ensemble.
Par conséquent, pour apprendre le nombre de clusters dans le modèle, vous pouvez prendre la valeur de NODE_CARDINALITY pour le nœud (Tout) et soustraire un. Par exemple, si le modèle a créé 9 clusters, la cardinalité de la racine du modèle est 10. Cela est dû au fait que le modèle contient 9 nœuds de cluster, chacun avec son propre nœud de séquence, ainsi qu’un nœud de séquence supplémentaire intitulé cluster 10, qui représente les séquences du modèle.
Guide étape par étape de la structure
Un exemple peut aider à clarifier la façon dont les informations sont stockées et comment vous pouvez l’interpréter. Par exemple, vous pouvez trouver l'ordre le plus long, c'est-à-dire la plus longue chaîne observée dans les données sous-jacentes AdventureWorksDW2012, à l’aide de la requête suivante :
USE AdventureWorksDW2012
SELECT DISTINCT OrderNumber, Count(*)
FROM vAssocSeqLineItems
GROUP BY OrderNumber
ORDER BY Count(*) DESC
À partir de ces résultats, vous constatez que les numéros de commande « SO72656 », « SO58845 » et « SO70714 » contiennent les plus grandes séquences, avec huit éléments chacun. En utilisant les ID de commande, vous pouvez afficher les détails d’une commande particulière pour voir quels articles ont été achetés et dans quel ordre.
| OrderNumber | Numéro de ligne | Model |
|---|---|---|
| SO58845 | 1 | Montagne-500 |
| SO58845 | 2 | LL Mountain Tire |
| SO58845 | 3 | Mountain Tire Tube |
| SO58845 | 4 | Fender Set - Mountain |
| SO58845 | 5 | Porte-bidon de montagne |
| SO58845 | 6 | Bouteille d’eau |
| SO58845 | 7 | Sport-100 |
| SO58845 | 8 | Maillot à Manches Longues avec Logo |
Toutefois, certains clients qui achètent le Mountain-500 peuvent acheter différents produits. Vous pouvez afficher tous les produits qui suivent le Mountain-500 en consultant la liste des séquences dans le modèle. Les procédures suivantes vous guident tout au long de l’affichage de ces séquences à l’aide des deux visionneuses fournies dans SQL Server Analysis Services :
Pour afficher les séquences associées à l’aide de la visionneuse Sequence Clustering
Dans l’Explorateur d’objets, cliquez avec le bouton droit sur le modèle [Sequence Clustering] et sélectionnez Parcourir.
Dans la visionneuse Sequence Clustering, cliquez sur l’onglet Transitions d’état .
Dans la liste déroulante Cluster , vérifiez que la population (Tout) est sélectionnée.
Déplacez la barre de curseurs à gauche du volet jusqu’en haut pour afficher tous les liens.
Dans le diagramme, recherchez Mountain-500, puis cliquez sur le nœud dans le diagramme.
Les lignes en surbrillance indiquent les états suivants (les produits achetés après le Mountain-500) et indiquent la probabilité par les nombres. Comparez-les aux résultats dans le visualiseur de contenu du modèle générique.
Pour afficher les séquences associées à l’aide de la visionneuse de contenu de modèle générique
Dans l’Explorateur d’objets, cliquez avec le bouton droit sur le modèle [Sequence Clustering] et sélectionnez Parcourir.
Dans la liste déroulante Visionneuse, sélectionnez la Visionneuse générique d'arborescence de contenu Microsoft.
Dans le volet Légende du nœud, cliquez sur le nœud nommé Niveau de séquence pour le cluster 16.
Dans le volet Détails du nœud, recherchez la ligne NODE_DISTRIBUTION, puis cliquez n’importe où dans la table imbriquée.
La ligne supérieure est toujours pour la valeur manquante. Cette ligne est l’état de séquence 0.
Appuyez sur la flèche vers le bas ou utilisez les barres de défilement pour descendre dans la table imbriquée jusqu’à ce que vous voyiez la ligne, Mountain-500.
Cette ligne est l’état de séquence 20.
Note
Vous pouvez obtenir le numéro de ligne d’un état de séquence particulier par programmation, mais si vous parcourez simplement, il peut être plus facile de copier le tableau imbriqué dans un classeur Excel.
Revenez au volet des légendes de nœuds et développez le nœud intitulé niveau séquence pour le cluster 16, s'il n’est pas déjà développé.
Recherchez parmi ses nœuds enfants la ligne transition pour l’état de séquence 20. Cliquez sur le nœud de transition.
La table NODE_DISTRIBUTION imbriquée contient les produits et les probabilités suivants. Comparez-les aux résultats de l’onglet Transition d’état de la visionneuse Sequence Clustering.
Le tableau suivant présente les résultats de la table NODE_DISTRIBUTION, ainsi que les valeurs de probabilité arrondies affichées dans la visionneuse graphique.
| Produit | Prise en charge (table NODE_DISTRIBUTION) | Table de probabilité (NODE_DISTRIBUTION) | Probabilité (à partir du graphique) |
|---|---|---|---|
| Manquant | 48.447887 | 0.138028169 | (non affiché) |
| Cap de cyclisme | 10.876056 | 0.030985915 | 0,03 |
| Fender Set - Montagne | 80.087324 | 0.228169014 | 0.23 |
| gants à demi-doigts | 0.9887324 | 0,002816901 | 0,00 |
| Pack d’hydratation | 0.9887324 | 0,002816901 | 0,00 |
| LL Mountain Tire | 51.414085 | 0.146478873 | 0.15 |
| Maillot à manches longues avec logo | 2.9661972 | 0.008450704 | 0,01 |
| Porte-bidon de montagne | 87.997183 | 0.250704225 | 0.25 |
| Mountain Tire Tube | 16.808451 | 0.047887324 | 0,05 |
| Maillot classique à manches courtes | 10.876056 | 0.030985915 | 0,03 |
| Sport-100 | 20.76338 | 0.05915493 | 0,06 |
| Bouteille d’eau | 18.785915 | 0.053521127 | 0.25 |
Bien que le cas que nous avons initialement sélectionné à partir des données d’entraînement contenait le produit « Mountain-500 » suivi de « LL Mountain Tire », vous pouvez voir qu’il existe de nombreuses autres séquences possibles. Pour trouver des informations détaillées pour un cluster particulier, vous devez répéter le processus d’exploration de la liste des séquences du cluster vers les transitions réelles pour chaque état ou produit.
Vous pouvez passer de la séquence répertoriée dans un cluster particulier à la ligne de transition. À partir de cette ligne de transition, vous pouvez déterminer le produit suivant et revenir à ce produit dans la liste des séquences. En répétant ce processus pour chaque premier et deuxième état, vous pouvez travailler sur de longues chaînes d’états.
Utilisation des informations de séquence
Un scénario courant pour le clustering de séquences consiste à suivre les clics utilisateur sur un site Web. Par exemple, si les données proviennent d’enregistrements d’achats clients sur le site web Adventure Works e-commerce, le modèle de clustering de séquences résultant peut être utilisé pour déduire le comportement de l’utilisateur, pour redéfinir le site de commerce électronique afin de résoudre les problèmes de navigation ou pour promouvoir les ventes.
Par exemple, l’analyse peut montrer que les utilisateurs suivent toujours une chaîne particulière de produits, quelle que soit la population. En outre, vous pouvez constater que les utilisateurs quittent fréquemment le site après avoir cliqué sur un produit particulier. Compte tenu de cette recherche, vous pouvez demander quels chemins supplémentaires vous pouvez fournir aux utilisateurs qui inciteraient les utilisateurs à rester sur le site Web.
Si vous n’avez pas d’informations supplémentaires à utiliser pour classifier vos utilisateurs, vous pouvez simplement utiliser les informations de séquence pour collecter des données sur la navigation afin de mieux comprendre le comportement global. Toutefois, si vous pouvez collecter des informations sur les clients et faire correspondre ces informations à votre base de données client, vous pouvez combiner la puissance du clustering avec la prédiction sur des séquences pour fournir des recommandations adaptées à l’utilisateur, ou peut-être en fonction du chemin de navigation vers la page active.
Une autre utilisation des informations d’état et de transition étendues compilées par un modèle de clustering de séquences consiste à déterminer quels chemins possibles ne sont jamais utilisés. Par exemple, si vous avez beaucoup de visiteurs accédant aux pages 1 à 4, mais que les visiteurs ne continuent jamais à la page 5, vous pouvez examiner s’il existe des problèmes qui empêchent la navigation vers la page 5. Pour ce faire, interrogez le contenu du modèle et comparez-le à une liste de chemins d’accès possibles. Les graphiques qui vous indiquent tous les chemins de navigation d’un site Web peuvent être créés par programme ou à l’aide d’un large éventail d’outils d’analyse de site.
Pour savoir comment obtenir la liste des chemins observés en interrogeant le contenu du modèle et pour voir d’autres exemples de requêtes sur un modèle de clustering séquence, consultez Exemples de requêtes de modèle de clustering de séquence.
Voir aussi
Contenu du modèle d’exploration de données (Analysis Services - Exploration de données)
Algorithme de clustering de séquences Microsoft
Exemples de requêtes de modèle de groupement de séquence