Contenu des modèles d’exploration de données pour les séries chronologiques (Analysis Services - Exploration de données)

S’applique à : SQL Server 2019 et versions antérieures d’Analysis Services Azure Analysis Services Fabric/Power BI Premium

Important

L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et a maintenant été abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez la compatibilité descendante des Analysis Services.

Tous les modèles d’exploration de données utilisent la même structure pour stocker leur contenu. Cette structure est définie en fonction de l’ensemble de lignes du schéma de contenu d’exploration de données. Toutefois, dans cette structure standard, les nœuds qui contiennent des informations sont organisés de différentes manières pour représenter différents types d’arborescences. Cette rubrique décrit comment les nœuds sont organisés et ce que chaque nœud signifie, pour les modèles d’exploration de données basés sur l’algorithme Microsoft Time Series.

Pour obtenir une explication du contenu général du modèle d’exploration de données qui s’applique à tous les types de modèles, consultez Contenu du modèle d’exploration de données (Analysis Services - Exploration de données).

Lors de l'examen de cette rubrique, il peut être utile de suivre en explorant le contenu d'un modèle de série chronologique. Vous pouvez créer un modèle de série chronologique en suivant le didacticiel d’exploration de données de base. Le modèle que vous créez dans le didacticiel est un modèle mixte qui entraîne les données à l’aide des algorithmes ARIMA et ARTXP. Pour plus d’informations sur la façon d’afficher le contenu d’un modèle d’exploration de données, consultez Visionneuses du modèle d’exploration de données.

Présentation de la structure d’un modèle de série chronologique

Un modèle de série chronologique a un nœud parent unique qui représente le modèle et ses métadonnées. Sous ce nœud parent, il existe un ou deux arborescences de séries chronologiques, selon l’algorithme que vous avez utilisé pour créer le modèle.

Si vous créez un modèle mixte, deux arborescences distinctes sont ajoutées au modèle, une pour ARIMA et une pour ARTXP. Si vous choisissez d’utiliser uniquement l’algorithme ARTXP ou uniquement l’algorithme ARIMA, vous aurez une arborescence unique qui correspond à cet algorithme. Vous spécifiez l’algorithme à utiliser en définissant le paramètre FORECAST_METHOD. Pour plus d’informations sur l’utilisation d’ARTXP, ARIMA ou d’un modèle mixte, consultez l’algorithme Microsoft Time Series.

Le diagramme suivant montre un exemple de modèle d’exploration de données de série chronologique qui a été créé avec les paramètres par défaut, pour créer un modèle mixte. Pour que vous puissiez comparer plus facilement les différences entre les deux modèles, ici, le modèle ARTXP s’affiche sur le côté gauche du diagramme et le modèle ARIMA est affiché à droite du diagramme. Alors que ARTXP est une structure de type arbre qui se divise en branches plus petites et plus petites, la structure créée par l’algorithme ARIMA est plus semblable à une pyramide construite vers le haut à partir de composants plus petits.

Structure du contenu du modèle pour les modèles de série chronologique

Le point important à retenir est que les informations sont organisées dans les arbres ARIMA et ARTXP de manière complètement différente, et vous devez considérer les deux arbres comme liés uniquement au nœud racine. Bien que les deux représentations soient présentées dans un modèle pratique, elles doivent être traitées comme deux modèles indépendants. ARTXP représente une structure d’arborescence réelle, mais ARIMA ne le fait pas.

Lorsque vous utilisez la visionneuse d’arborescence de contenu du modèle générique Microsoft pour afficher un modèle qui utilise à la fois ARIMA et ARTXP, les nœuds des modèles ARTXP et ARIMA sont tous présentés en tant que nœuds enfants du modèle de série chronologique parent. Toutefois, vous pouvez facilement les distinguer par les étiquettes appliquées aux nœuds.

Le premier ensemble de nœuds est étiqueté (All) et représente les résultats de l’analyse par l’algorithme ARTXP.
Le deuxième ensemble de nœuds est intitulé ARIMA et représente les résultats de l’analyse par l’algorithme ARIMA.

Avertissement

Le nom (All) de l’arborescence ARTXP est conservé uniquement pour la compatibilité descendante. Avant SQL Server 2008, l’algorithme Time Series a utilisé un algorithme unique pour l’analyse, l’algorithme ARTXP.

Les sections suivantes expliquent comment les nœuds sont organisés dans chacun de ces types de modèle.

Structure d’un modèle ARTXP

L’algorithme ARTXP crée un modèle similaire à un modèle d’arbre de décision. Il regroupe les attributs prédictibles et les fractionne chaque fois que des différences significatives sont trouvées. Par conséquent, chaque modèle ARTXP contient une branche distincte pour chaque attribut prédictible. Par exemple, le didacticiel d’exploration de données de base crée un modèle qui prédit la quantité de ventes pour plusieurs régions. Dans ce cas, [Amount] est l’attribut prédictible et une branche distincte est créée pour chaque région. Si vous aviez deux attributs prédictibles , [Amount] et [Quantity], une branche distincte serait créée pour chaque combinaison d’un attribut et d’une région.

Le nœud supérieur de la branche ARTXP contient les mêmes informations que celles contenues dans un nœud racine d’arbre de décision. Cela inclut le nombre d’enfants pour ce nœud (CHILDREN_CARDINALITY), le nombre de cas répondant aux conditions de ce nœud (NODE_SUPPORT) et une variété de statistiques descriptives (NODE_DISTRIBUTION).

Si le nœud n’a pas d’enfants, cela signifie qu’aucune condition significative n’a été trouvée qui justifierait la division des cas en sous-groupes supplémentaires. La branche se termine à ce stade et le nœud est appelé nœud feuille. Le nœud feuille contient les attributs, coefficients et valeurs qui sont les blocs de construction de la formule ARTXP.

Certaines branches peuvent avoir des fractionnements supplémentaires, similaires à un modèle d’arbres de décision. Par exemple, la branche de l’arbre qui représente les ventes pour la région Europe se divise en deux branches. Un fractionnement se produit lorsqu’une condition est trouvée qui provoque une différence significative entre les deux groupes. Le nœud parent vous indique le nom de l’attribut qui a provoqué le fractionnement, tel que [Amount], et le nombre de cas présents dans le nœud parent. Les nœuds feuille fournissent plus de détails : la valeur de l’attribut, par exemple [Sales] >10 000 vs. [Sales] < 10 000), le nombre d'occurrences qui confirment chaque condition et la formule ARTXP.

Note

Si vous souhaitez afficher les formules, vous pouvez trouver la formule de régression complète au niveau du nœud feuille, mais pas dans un nœud intermédiaire ou racine.

Structure d’un modèle ARIMA

L’algorithme ARIMA crée une seule information pour chaque combinaison d’une série de données (telle que [Région]) et un attribut prédictible (tel que [Sales Amount])-l’équation qui décrit la modification de l’attribut prédictible au fil du temps.

L’équation de chaque série est dérivée de plusieurs composants, un pour chaque structure périodique trouvée dans les données. Par exemple, si vous avez des données de ventes collectées mensuellement, l’algorithme peut détecter des structures périodiques mensuelles, trimestrielles ou annuelles.

L’algorithme génère un ensemble distinct de nœuds parents et enfants pour chaque périodicité qu’il trouve. La périodicité par défaut est 1, pour une tranche de temps unique et est automatiquement ajoutée à tous les modèles. Vous pouvez spécifier des structures périodiques possibles en entrant plusieurs valeurs dans le paramètre PERIODICITY_HINT. Toutefois, si l’algorithme ne détecte pas une structure périodique, il ne génère pas de résultats pour cet indicateur.

Chaque structure périodique qui est sortie dans le contenu du modèle contient les nœuds de composant suivants :

Nœud de l’ordre autorégressif (AR)
Un nœud pour la moyenne mobile (MA)

Pour plus d’informations sur la signification de ces termes, consultez l’algorithme Microsoft Time Series.

L’ordre des différences est une partie importante de la formule et est représenté dans l’équation. Pour plus d’informations sur la façon dont l’ordre de différence est utilisé, consultez Microsoft Time Series Algorithm Technical Reference.

Contenu du modèle pour les séries chronologiques

Cette section fournit des détails et des exemples uniquement pour les colonnes dans le contenu du modèle minier ayant une pertinence particulière pour les modèles de série chronologique.

Pour plus d’informations sur les colonnes à usage général dans l’ensemble de lignes de schéma, telles que MODEL_CATALOG et MODEL_NAME, ou pour des explications de la terminologie du modèle d’exploration de données, consultez Contenu du modèle d’exploration de données (Analysis Services - Exploration de données).

MODEL_CATALOG
Nom de la base de données où le modèle est stocké.

MODEL_NAME
Nom du modèle.

ATTRIBUTE_NAME
Attribut prédictible pour la série de données représentée dans le nœud. (La même valeur que pour MSOLAP_MODEL_COLUMN.)

NODE_NAME
Nom du nœud.

Actuellement, cette colonne contient la même valeur que NODE_UNIQUE_NAME, bien que cela puisse changer dans les versions ultérieures.

NODE_UNIQUE_NAME
Nom unique du nœud. Le nœud parent du modèle est toujours nommé TS.

ARTXP: Chaque nœud est représenté par TS suivi d’une valeur numérique hexadécimale. L’ordre des nœuds n’est pas important.

Par exemple, les nœuds ARTXP directement sous l’arborescence TS peuvent être numérotés TS00000001-TS0000000b.

ARIMA: Chaque nœud d’une arborescence ARIMA est représenté par TA suivi d’une valeur numérique hexadécimale. Les nœuds enfants contiennent le nom unique du nœud parent suivi d’un autre nombre hexadécimal indiquant la séquence dans le nœud.

Tous les arbres ARIMA sont structurés exactement de la même façon. Chaque racine contient les nœuds et la convention d’affectation de noms illustrées dans le tableau suivant :

ID et type de nœud ARIMA	Exemple de nom de nœud
RACINE ARIMA (27)	TA0000000b
Structure périodique ARIMA (28)	TA0000000b00000000
Régressive automatique ARIMA (29)	TA0000000b000000000
Moyenne mobile ARIMA (30)	TA0000000b000000001

NODE_TYPE
Un modèle de série chronologique génère les types de nœuds suivants, en fonction de l’algorithme.

ARTXP:

ID de type de nœud	Descriptif
1 (Modèle)	Série chronologique
3 (Intérieur)	Représente une branche intérieure dans une arborescence de série chronologique ARTXP.
16 (arbre de séries chronologiques)	Racine de l’arborescence ARTXP qui correspond à un attribut et une série prévisibles.
15 (série chronologique)	Nœud feuille dans l’arborescence ARTXP.

ARIMA:

ID de type de nœud	Descriptif
27 (racine ARIMA)	Nœud supérieur d’une arborescence ARIMA.
28 (Structure périodique ARIMA)	Composant d’une arborescence ARIMA qui décrit une structure périodique unique.
29 (Autoregressive ARIMA)	Contient un coefficient pour une structure périodique unique.
30 (moyenne mobile ARIMA)	Contient un coefficient pour une structure périodique unique.

NODE_CAPTION
Étiquette ou légende associée au nœud.

Cette propriété est principalement à des fins d’affichage.

ARTXP: Contient la condition de fractionnement du nœud, affichée sous la forme d’une combinaison d’attributs et de plages de valeurs.

ARIMA: Contient la forme courte de l’équation ARIMA.

Pour plus d’informations sur le format de l’équation ARIMA, consultez La légende d’exploration de données pour ARIMA.

CHILDREN_CARDINALITY
Nombre d’enfants directs dont dispose le nœud.

PARENT_UNIQUE_NAME
Nom unique du parent du nœud. NULL est retourné pour tous les nœuds au niveau racine.

NODE_DESCRIPTION
Description dans le texte des règles, fractionnements ou formules dans le nœud actuel.

ARTXP: Pour plus d’informations, consultez Présentation de l’arborescence ARTXP.

ARIMA: Pour plus d’informations, consultez Présentation de l’arborescence ARIMA.

NODE_RULE
Description XML des règles, fractionnements ou formules dans le nœud actuel.

ARTXP: Le NODE_RULE correspond généralement au NODE_CAPTION.

ARIMA: Pour plus d’informations, consultez Présentation de l’arborescence ARIMA.

MARGINAL_RULE
Description XML du fractionnement ou du contenu spécifique à ce nœud.

ARTXP: Le MARGINAL_RULE correspond généralement au NODE_DESCRIPTION.

ARIMA: Toujours vide ; utilisez NODE_RULE à la place.

NODE_PROBABILITY
ARTXP: Pour les nœuds d’arborescence, toujours 1. Pour les nœuds feuilles, la probabilité d’atteindre le nœud à partir du nœud racine du modèle.

ARIMA: Toujours 0.

MARGINAL_PROBABILITY
ARTXP: Pour les nœuds d’arborescence, toujours 1. Pour les nœuds feuilles, la probabilité d’atteindre le nœud à partir du nœud parent immédiat.

ARIMA: Toujours 0.

NODE_DISTRIBUTION
Table qui contient l’histogramme de probabilité du nœud. Dans un modèle de série chronologique, cette table imbriquée contient tous les composants requis pour assembler la formule de régression réelle.

Pour plus d’informations sur la table de distribution de nœuds dans une arborescence ARTXP, consultez Présentation de l’arborescence ARTXP.

Pour plus d’informations sur la table de distribution de nœuds dans une arborescence ARIMA, consultez Présentation de l’arborescence ARIMA.

Si vous souhaitez afficher toutes les constantes et autres composants dans un format lisible, utilisez la Visionneuse de séries chronologiques, cliquez sur le nœud, et ouvrez la Légende de l'exploration.

NODE_SUPPORT
Nombre de cas qui prennent en charge ce nœud.

ARTXP: Pour le nœud (Tout), indique le nombre total de tranches de temps incluses dans la branche.

Pour les nœuds terminaux, indique le nombre de tranches de temps comprises dans la plage décrite par NODE_CAPTION. Le nombre de tranches de temps dans les nœuds terminaux est toujours égal à la valeur NODE_SUPPORT du nœud de branche (Tout).

ARIMA: Nombre de cas qui prennent en charge la structure périodique actuelle. La valeur de support est répétée dans tous les nœuds de la structure périodique actuelle.

MSOLAP_MODEL_COLUMN
Attribut prédictible pour la série de données représentée dans le nœud. (La même valeur que pour ATTRIBUTE_NAME.)

MSOLAP_NODE_SCORE
Valeur numérique qui caractérise la valeur informative de l’arborescence ou du découpage.

ARTXP: La valeur est toujours 0,0 pour les nœuds sans fractionnement. Pour les nœuds avec un fractionnement, la valeur représente le score d’intérêt du fractionnement.

Pour plus d’informations sur les méthodes de scoring, consultez Sélection des fonctionnalités (exploration de données).

ARIMA: Score BIC (Critère d'information bayésien) du modèle ARIMA. Le même score est défini sur tous les nœuds ARIMA liés à l’équation.

MSOLAP_NODE_SHORT_CAPTION
ARTXP: Mêmes informations que le NODE_DESCRIPTION.

ARIMA: Mêmes informations que les NODE_CAPTION : autrement dit, la forme courte de l’équation ARIMA.

Comprendre l'arborescence ARTXP

Le modèle ARTXP sépare clairement les zones des données linéaires des zones des données qui se divisent sur un autre facteur. Où que les modifications apportées à l’attribut prédictible puissent être directement représentées en tant que fonction des variables indépendantes, une formule de régression est calculée pour représenter cette relation

Par exemple, s’il existe une corrélation directe entre le temps et les ventes pour la plupart des séries de données, chaque série est contenue dans une arborescence de série chronologique (NODE_TYPE =16) qui n’a aucun nœud enfant pour chaque série de données, seule une équation de régression. Toutefois, si la relation n’est pas linéaire, une arborescence de séries chronologiques ARTXP peut se diviser en fonction de conditions en nœuds enfants, comme un modèle d’arbre de décision. En affichant le contenu du modèle dans la visionneuse de l’arborescence de contenu générique Microsoft , vous pouvez voir où se produisent les fractionnements et comment cela affecte la courbe de tendance.

Pour mieux comprendre ce comportement, vous pouvez passer en revue le modèle de série chronologique créé dans le didacticiel d’exploration de données de base. Ce modèle, basé sur l’entrepôt de données AdventureWorks, n’utilise pas de données particulièrement complexes. Par conséquent, il n’y a pas beaucoup de fractionnements dans l’arborescence ARTXP. Toutefois, même ce modèle relativement simple illustre trois types de fractionnements différents :

La courbe de tendance [Amount] pour la région Pacifique se divise selon sa clé temporelle. Un fractionnement sur la clé de temps signifie qu’il existe un changement de tendance à un moment donné. La courbe de tendance était linéaire uniquement jusqu’à un certain point, puis la courbe supposait une forme différente. Par exemple, une série chronologique peut continuer jusqu’au 6 août 2002 et une autre série chronologique commence après cette date.
La ligne de tendance [Amount] pour la région Amérique du Nord se décompose en fonction d'une autre variable. Dans ce cas, la tendance pour l’Amérique du Nord se divise en fonction de la valeur du même modèle dans la région Europe. En d’autres termes, l’algorithme a détecté que lorsque la valeur pour l’Europe change, la valeur pour l’Amérique du Nord A change également.
La courbe de tendance de la région Europe se divise sur elle-même.

Que signifie chaque fractionnement ? L’interprétation des informations transmises par le contenu du modèle est un art qui nécessite une compréhension approfondie des données et de sa signification dans le contexte métier.

Le lien apparent entre les tendances des régions Amérique du Nord et Europe peut signifier uniquement que la série de données pour l'Europe a plus d'entropie, ce qui a pour conséquence que la tendance pour l'Amérique du Nord semble plus faible. Ou bien, il n’y a peut-être aucune différence significative dans le scoring pour les deux, et la corrélation peut être accidentelle, basée simplement sur l’informatique de l’Europe avant de calculer l’Amérique du Nord. Toutefois, vous souhaiterez peut-être examiner les données et vérifier si la corrélation est fausse ou si vous examinez si un autre facteur peut être impliqué.
Le fractionnement sur la clé temporelle indique qu'il existe un changement statistiquement significatif dans la pente de la ligne. Cela peut avoir été dû à des facteurs mathématiques tels que la prise en charge de chaque plage, ou les calculs d’entropie requis pour le fractionnement. Ainsi, cette division peut ne pas être intéressante en termes de signification du modèle dans le monde réel. Toutefois, lorsque vous passez en revue la période indiquée dans le fractionnement, vous pouvez trouver des corrélations intéressantes qui ne sont pas représentées dans les données, telles qu’une promotion des ventes ou un autre événement qui a commencé à ce moment-là et qui ont peut-être affecté les données.

Si les données contenaient d’autres attributs, vous verrez probablement des exemples plus intéressants de branchement dans l’arborescence. Par exemple, si vous avez suivi les informations météorologiques et utilisé cela comme attribut pour l’analyse, vous pouvez voir plusieurs fractionnements dans l’arborescence qui représentent l’interaction complexe des ventes et des conditions météorologiques.

En bref, l’exploration de données est utile pour fournir des indications sur l’endroit où des phénomènes potentiellement intéressants se produisent, mais une enquête approfondie et l’expertise des utilisateurs professionnels sont nécessaires pour interpréter avec précision la valeur des informations dans le contexte.

Éléments de la formule de série chronologique ARTXP

Pour afficher la formule complète d’une arborescence ou d’une branche ARTXP, nous vous recommandons d’utiliser la Légende d'exploration de la Visionneuse de séries chronologiques Microsoft, qui affiche toutes les constantes dans un format lisible.

Afficher la formule d’un modèle de série chronologique (exploration de données)

La section suivante présente un exemple d’équation et explique les termes de base.

Légende d'extraction de données pour une formule ARTXP

L’exemple suivant montre la formule ARTXP pour une partie du modèle, comme indiqué dans la Légende d'exploitation. Pour afficher cette formule, ouvrez le modèle [Prévision] que vous avez créé dans le didacticiel d’exploration de données de base dans la visionneuse Microsoft Time Series, cliquez sur l’onglet Modèle , puis sélectionnez l’arborescence de la série de données R250 : Europe.

Pour afficher l’équation utilisée pour cet exemple, cliquez sur le nœud qui représente la série de dates le ou après le 5/7/2003.

Exemple d’équation de nœud d’arborescence :

Quantity = 21.322 -0.293 * Quantity(R250 North America,-7) + 0.069 * Quantity(R250 Europe,-1) + 0.023 * Quantity(R250 Europe,-3) -0.142 * Quantity(R750 Europe,-8)

Dans ce cas, la valeur 21.322 représente la valeur prédite pour Quantity en fonction des éléments suivants de l’équation.

Par exemple, un élément est Quantity(R250 North America,-7). Cette notation signifie la quantité pour la région Amérique du Nord à t-7, ou sept tranches de temps avant la tranche de temps actuelle. La valeur de cette série de données est multipliée par le coefficient -0,293. Le coefficient de chaque élément est dérivé pendant le processus d’entraînement et est basé sur les tendances des données.

Il existe plusieurs éléments dans cette équation, car le modèle a calculé que la quantité du modèle R250 dans la région Europe dépend des valeurs de plusieurs autres séries de données.

Contenu de modèle pour une formule ARTXP

Le tableau suivant présente les mêmes informations pour la formule, en utilisant le contenu du nœud approprié, tel qu’affiché dans la visionneuse d’arborescences de contenu générique Microsoft (exploration de données).

ATTRIBUTE_NAME	ATTRIBUTE_VALUE	SOUTIEN	VARIANCE	VALUETYPE
Quantité (R250 Europe, ordonnée à l'origine)	21.3223433563772	11	1.65508795539661	11 (Intercept)
Quantité(R250 Europe,-1)	0.0691694140876526	0	0	7 (Coefficient)
Quantité(R250 Europe,-1)	20.6363635858123	0	182.380682874818	9 (Statistiques)
Quantité(R750 Europe,-8)	-0.1421203048299	0	0	7 (Coefficient)
Quantité(R750 Europe,-8)	22.5454545333019	0	104.362130048408	9 (Statistiques)
Quantité(R250 Europe,-3)	0.0234095979448281	0	0	7 (Coefficient)
Quantité(R250 Europe,-3)	24.8181818883176	0	176,475304989169	9 (Statistiques)
Quantity(R250 North America,-7)	-0.292914186039869	0	0	7 (Coefficient)
Quantity(R250 North America,-7)	10.36363640433	0	701.882534898676	9 (Statistiques)

Comme vous pouvez le constater en comparant ces exemples, le contenu du modèle d'exploration de données contient les mêmes informations que celles disponibles dans la Mining Legend, mais avec des colonnes supplémentaires pour la variance et le support. La valeur de prise en charge indique le nombre de cas qui prennent en charge la tendance décrite par cette équation.

Utilisation de la formule de série chronologique ARTXP

Pour la plupart des utilisateurs professionnels, la valeur du contenu du modèle ARTXP est qu’elle combine à la fois une arborescence et une représentation linéaire des données.

Si les modifications apportées à l’attribut prédictible peuvent être représentées en tant que fonction linéaire des variables indépendantes, l’algorithme calcule automatiquement l’équation de régression et la sortie de cette série dans un nœud distinct
Chaque fois que la relation ne peut pas être exprimée par une corrélation linéaire, la série chronologique se ramifie comme un arbre de décision.

En parcourant le contenu du modèle dans microsoft Time Series Viewer , vous pouvez voir où se produit le fractionnement et comment il affecte la courbe de tendance.

Si une corrélation directe existe entre le temps et les ventes d’une partie de la série de données, le moyen le plus simple d’obtenir la formule consiste à copier la formule à partir de la légende d’exploration de données, puis à la coller dans un document ou une présentation pour vous aider à expliquer le modèle. Vous pouvez également extraire la moyenne, le coefficient et d’autres informations de la table NODE_DISTRIBUTION pour cette arborescence et l’utiliser pour calculer les extensions de la tendance. Si la série entière présente une relation linéaire cohérente, l’équation est contenue dans le nœud (Tout). S’il existe une branche dans l’arborescence, l’équation est contenue dans le nœud feuille.

La requête suivante retourne tous les nœuds feuilles ARTXP d’un modèle d’exploration de données, ainsi que la table imbriquée "DISTRIBUTION_DES_NŒUDS", qui contient l’équation.

SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_NAME,  
NODE_CAPTION,   
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [VARIANCE], VALUETYPE  
FROM NODE_DISTRIBUTION) as t  
FROM Forecasting.CONTENT  
WHERE NODE_TYPE = 15

Comprendre l’arborescence ARIMA

Chaque structure d’un modèle ARIMA correspond à une périodicité ou à une structure périodique. Une structure périodique est un modèle de données qui se répète tout au long de la série de données. Certaines variations mineures du modèle sont autorisées, dans les limites statistiques. La périodicité est mesurée en fonction des unités de temps par défaut utilisées dans les données d’entraînement. Par exemple, si les données d’apprentissage fournissent des données de ventes pour chaque jour, l’unité de temps par défaut est un jour et toutes les structures périodiques sont définies comme un nombre spécifié de jours.

Chaque période détectée par l’algorithme obtient son propre nœud de structure. Par exemple, si vous analysez des données de ventes quotidiennes, le modèle peut détecter des structures périodiques qui représentent des semaines. Dans ce cas, l’algorithme crée deux structures périodiques dans le modèle terminé : une pour la période quotidienne par défaut, désignée comme {1}, et une pour les semaines, indiquée par {7}.

Par exemple, la requête suivante récupère toutes les structures ARIMA d’un modèle de fouille de données.

SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_NAME, NODE_CAPTION  
FROM Forecasting.CONTENT  
WHERE NODE_TYPE = 27

Exemples de résultats :

MODEL_NAME	ATTRIBUTE_NAME	NODE_NAME	NODE_TYPE	NODE_CAPTION
Forecasting	M200 Europe : Quantité	TA00000000	27	ARIMA (1,0,1)
Forecasting	M200 Amérique du Nord : Quantité	TA00000001	27	ARIMA (1,0,4) X (1,1,4)(6)
Forecasting	M200 Pacific : Quantité	TA00000002	27	ARIMA (2,0,8) X (1,0,0)(4)
Forecasting	M200 Pacific : Quantité	TA00000002	27	ARIMA (2,0,8) X (1,0,0)(4)
Forecasting	R250 Europe : Quantité	TA00000003	27	ARIMA (1,0,7)
Forecasting	R250 Amérique du Nord : Quantité	TA00000004	27	ARIMA (1 0,2)
Forecasting	R250 Pacific : Quantité	TA00000005	27	ARIMA (2,0,2) X (1,1,2)(12)
Forecasting	R750 Europe : Quantité	TA00000006	27	ARIMA (2,1,1) X (1,1,5)(6)
Forecasting	T1000 Europe : Quantité	TA00000009	27	ARIMA (1,0,1)
Forecasting	T1000 Amérique du Nord : Quantité	TA0000000a	27	ARIMA (1,1,1)
Forecasting	T1 000 Pacific : Quantité	TA0000000b	27	ARIMA (1 0,3)

À partir de ces résultats, que vous pouvez également parcourir à l’aide de la Visionneuse d’arborescence de contenu générique Microsoft (exploration de données), vous pouvez indiquer en un clin d’œil quelle série sont complètement linéaires, qui ont plusieurs structures périodiques et quelles sont les périodicités découvertes.

Par exemple, la forme abrégée de l’équation ARIMA pour la série M200 Europe vous indique que seul le cycle par défaut, ou quotidien, a été détecté. La forme courte de l’équation est fournie dans la colonne NODE_CAPTION.

Toutefois, pour la série M200 Amérique du Nord, une structure périodique supplémentaire a été trouvée. Le nœud TA00000001 a deux nœuds enfants, un avec l’équation (1,0,4) et un avec l’équation (1,1,4)(6). Ces équations sont concaténées et présentées dans le nœud parent.

Pour chaque structure périodique, le contenu du modèle fournit également l’ordre et la moyenne mobile en tant que nœuds enfants. Par exemple, la requête suivante récupère les nœuds enfants d’un des nœuds répertoriés dans l’exemple précédent. Notez que la colonne, PARENT_UNIQUE_NAME, doit être placée entre crochets pour la distinguer du mot clé réservé du même nom.

SELECT *   
FROM Forecasting.CONTENT  
WHERE [PARENT_UNIQUE_NAME] = ' TA00000001'

Étant donné qu’il s’agit d’une arborescence ARIMA, et non d’une arborescence ARTXP, vous ne pouvez pas utiliser la fonction IsDescendant (DMX) pour retourner les nœuds enfants de cette structure périodique. Au lieu de cela, vous pouvez utiliser les types d’attribut et de nœud pour filtrer les résultats et afficher les nœuds enfants qui fournissent plus de détails sur la façon dont l’équation a été construite, y compris les moyennes mobiles et l’ordre des différences.

SELECT MODEL_NAME, ATTRIBUTE_NAME, NODE_UNIQUE_NAME,  
NODE_TYPE,  NODE_CAPTION  
FROM Forecasting.CONTENT  
WHERE [MSOLAP_MODEL_COLUMN] ='M200 North America:Quantity'  
AND (NODE_TYPE = 29 or NODE_TYPE = 30)

Exemples de résultats :

MODEL_NAME	ATTRIBUTE_NAME	NODE_UNIQUE_NAME	NODE_TYPE	NODE_CAPTION
Forecasting	M200 Amérique du Nord : Quantité	TA00000001000000010	29	ARIMA {1,0.961832044807041}
Forecasting	M200 Amérique du Nord : Quantité	TA00000001000000011	30	ARIMA {1,-3.51073103693271E-02,2.15731642954099,-0.220314343327742,-1.33151478258758}
Forecasting	M200 Amérique du Nord : Quantité	TA00000001000000000	29	ARIMA {1,0.643565911081657}
Forecasting	M200 Amérique du Nord : Quantité	TA00000001000000001	30	ARIMA {1,1.45035399809581E-02,-4.40489283927752E-02,-0.19203901352577,0.242202497643993}

Ces exemples illustrent que plus vous explorez l’arborescence ARIMA, plus de détails sont révélés, mais les informations importantes sont combinées et présentées dans le nœud parent.

Modèle de série chronologique pour ARIMA

Pour consulter l'équation complète pour un nœud ARIMA, nous vous recommandons d'utiliser la légende de l'exploration dans la Visionneuse des Séries Temporelles de Microsoft, qui présente l'ordre autorégressif, les moyennes mobiles et d'autres éléments de l'équation dans un format déjà cohérent.

Afficher la formule d’un modèle de série chronologique (exploration de données)

Cette section présente un exemple d’équation et explique les termes de base.

Légende d’exploration de données pour la formule ARIMA

L’exemple suivant montre la formule ARIMA d’une partie du modèle, comme indiqué dans la légende d’exploration de données. Pour afficher cette formule, ouvrez le modèle de prévision à l’aide de la visionneuse Microsoft Time Series, cliquez sur l’onglet Modèle , sélectionnez l’arborescence de la série de données R250 : Europe , puis cliquez sur le nœud qui représente la série de dates ou après le 5/5/2003. La légende de l'exploitation minière compose toutes les constantes dans un format lisible, comme le montre cet exemple :

Équation ARIMA :

ARIMA ({1,1},0,{1,1.49791920964142,1.10640053499397,0.888873034670339,-5.05429403071953E-02,-0.905265316720334,-0.961908900643379,-0.649991020901922}) Intercept:56.8888888888889

Cette équation est le format ARIMA long, qui inclut les valeurs des coefficients et de l’intercept. Le format court de cette équation serait {1,0,7}, où 1 indique la période sous la forme d’un nombre de tranches de temps, 0 indique l’ordre de différence de terme et 7 indique le nombre de coefficients.

Note

Une constante est calculée par Analysis Services pour la variance de calcul, mais la constante elle-même n’est pas affichée n’importe où dans l’interface utilisateur. Toutefois, vous pouvez afficher la variance pour n’importe quel point de la série en fonction de cette constante si vous sélectionnez Afficher les écarts, en mode Graphique . L’info-bulle pour chaque série de données affiche la variance d’un point prédit spécifique.

Contenu du modèle pour la formule ARIMA

Un modèle ARIMA suit une structure standard, avec différentes informations contenues dans des nœuds de différents types. Pour afficher le contenu du modèle ARIMA, remplacez la visionneuse par l’arborescence de contenu générique Microsoft, puis développez le nœud dont le nom d’attribut est R250 Europe : Quantity.

Un modèle ARIMA pour une série de données contient l’équation périodique de base dans quatre formats différents, parmi lesquels vous pouvez choisir en fonction de l’application.

NODE_CAPTION : Affiche le format court de l’équation. Le format court vous indique le nombre de structures périodiques représentées et le nombre de coefficients dont ils disposent. Par exemple, si le format court de l’équation est {4,0,6}, le nœud représente une structure périodique avec 6 coefficients. Si le format court est similaire {2,0,8} x {1,0,0}(4), le nœud contient deux structures périodiques.

DESCRIPTION DU NŒUD : Affiche le format long de l’équation, qui est également la forme apparaissant dans la légende minière. La forme longue de l’équation est similaire à la forme courte, sauf que les valeurs réelles des coefficients sont affichées au lieu d’être comptées.

NODE_RULE : Affiche une représentation XML de l’équation. Selon le type de nœud, la représentation XML peut inclure une ou plusieurs structures périodiques. Le tableau suivant montre comment les nœuds XML sont inscrits à des niveaux supérieurs du modèle ARIMA.

Type de nœud	Contenu XML
27 (racine ARIMA)	Inclut toutes les structures périodiques de la série de données et le contenu de tous les nœuds enfants pour chaque structure périodique.
28 (Structure périodique ARIMA)	Définit une structure périodique unique, y compris son nœud de terme autorégressif et ses coefficients de moyenne mobile.
29 (Autoregressive ARIMA)	Répertorie les termes d’une structure périodique unique.
30 (moyenne mobile ARIMA)	Répertorie les coefficients d’une structure périodique unique.

NODE_DISTRIBUTION : Affiche les termes de l’équation dans une table imbriquée, que vous pouvez interroger pour obtenir des termes spécifiques. La table de distribution de nœuds suit la même structure hiérarchique que les règles XML. Autrement dit, le nœud racine de la série ARIMA (NODE_TYPE = 27) contient la valeur d’interception et les périodicités de l’équation complète, qui peuvent inclure plusieurs périodicités, tandis que les nœuds enfants contiennent uniquement des informations spécifiques à une certaine structure périodique ou aux nœuds enfants de cette structure périodique.

Type de nœud	Caractéristique	Type de valeur
27 (racine ARIMA)	Intercepter Périodicité	11
28 (Structure périodique ARIMA)	Périodicité Ordre de régressivité automatique Ordre des différences Ordre de moyenne mobile	12 13 15 14
29 (Autoregressive ARIMA)	Coefficient (complément du coefficient)	7
30 (moyenne mobile ARIMA)	Valeur à t Valeur à t-1 ... Valeur à t-n	7

La valeur de l’ordre de moyenne mobile indique le nombre de moyennes mobiles dans une série. En règle générale, la moyenne mobile est calculée n-1 fois s'il y a n termes dans une série, mais le nombre peut être réduit pour faciliter le calcul.

La valeur de l’ordre de régressivité automatique indique le nombre de séries de régressives automatiques.

La valeur de l’ordre de différence indique le nombre de fois où la série est comparée ou différente.

Pour obtenir une énumération des types valeur possibles, consultez Microsoft.AnalysisServices.AdomdServer.MiningValueType.

Utilisation des informations sur l’arborescence ARIMA

Si vous utilisez des prédictions basées sur l’algorithme ARIMA dans une solution métier, vous pouvez coller l’équation dans un rapport pour illustrer la méthode utilisée pour créer la prédiction. Vous pouvez utiliser la légende pour présenter les formules au format court ou la description pour présenter les formules au format long.

Si vous développez une application qui utilise des prédictions de série chronologique, vous pouvez la trouver utile pour obtenir l’équation ARIMA à partir du contenu du modèle, puis effectuer vos propres prédictions. Pour obtenir l’équation ARIMA pour une sortie particulière, vous pouvez interroger directement la racine ARIMA pour cet attribut particulier, comme indiqué dans les exemples précédents.

Si vous connaissez l’ID du nœud qui contient la série souhaitée, vous avez deux options pour récupérer les composants de l’équation :

Format de table imbriqué : utilisez une requête DMX ou une requête via le client OLEDB.
Représentation XML : utilisez une requête XML.

Remarques

Il peut être difficile de récupérer des informations à partir d’une arborescence ARTXP, car les informations pour chaque fractionnement se trouvent dans un emplacement différent dans l’arborescence. Par conséquent, avec un modèle ARTXP, vous devez obtenir tous les éléments, puis effectuer un traitement pour rétablir la formule complète. La récupération d’une équation à partir d’un modèle ARIMA est plus facile, car la formule a été mise à disposition dans l’arborescence. Pour plus d’informations sur la création d’une requête pour récupérer ces informations, consultez Exemples de requêtes de modèle de série chronologique.

Voir aussi

Contenu du modèle d’exploration de données (Analysis Services - Exploration de données)
Algorithme Microsoft Time Series
Exemples de requêtes de modèle de série chronologique
Informations techniques de référence sur l’algorithme Microsoft Time Series

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-02-03