Dataflow Gen2-Preise für Data Factory in Microsoft Fabric

Dataflow Gen2 hilft Ihnen, Daten mühelos zu gestalten und zu transformieren. Es bietet eine Low-Code-Schnittstelle und über 300 integrierte Daten- und KI-Transformationen, die alle durch die vertraute Power Query Erfahrung unterstützt werden, die Sie in Excel, Power BI, Power Platform und Dynamics 365 finden. Dataflow Gen2 unterstützt auch die Spark-gestützte Ausführung von Transformationen durch Mapping-Data-Flow-(MDF)-Transformationen für native und migrierte Workloads.

Diese Preisgestaltung gilt für alle Fabric-Kapazitäts-SKUs (F2 und darüber). Die Preise gelten nicht für Fabric Testkapazitäten.

Wenn Sie einen Datenfluss veröffentlichen, wird eine Definition erstellt, die während der Aktualisierung ausgeführt wird. Die Dataflow Gen2-Engine verwendet diese Definition, um zu planen und zu verwalten, wie Abfragen über Datenquellen, Gateways und Compute-Engines hinweg ausgeführt werden. Es erstellt Tabellen im Stagingspeicher oder sendet sie an Ihr ausgewähltes Ziel, so erhalten Sie zuverlässige Ergebnisse ohne die schwere Arbeit.

Diagramm der Architektur „Dataflow Gen2“

Das Diagramm zeigt Komponenten der Data Factory Dataflow Gen2-Architektur, darunter das Lakehouse, das zum Zwischenspeichern der aufgenommenen Daten verwendet wird, sowie das Warehouse-Element, das als Compute-Engine verwendet wird, um Ergebnisse schneller in den Stagingbereich oder in die Ausgabe zu schreiben. Wenn Sie Warehouse-Compute nicht verwenden können oder das Staging für eine Abfrage deaktivieren, extrahiert, transformiert oder lädt die Mashup-Engine die Daten in den Stagingbereich oder in Datenziele. Weitere Informationen zur Funktionsweise von Dataflow Gen2 finden Sie unter Data Factory Spotlight: Dataflow Gen2.

Dataflow Gen2 kann Workloads entweder mit dem Mashup-Modul oder Spark Engine ausführen. Wenn MDF-Transformationen innerhalb von Dataflow Gen2 verwendet werden, kommen für die Ausführung von Transformationen und die Datenverarbeitung Spark-gestützte Rechenressourcen zum Einsatz.

Wenn Sie ein Dataflow Gen2-Element aktualisieren oder veröffentlichen, werden für die folgenden Engines Fabric Capacity Units verbraucht:

  • Standard-Compute: Sie werden dafür basierend auf der Abfrageauswertungszeit für alle Ihre Dataflow-Abfragen, die über die Mashup-Engine laufen, berechnet.
  • High Scale Dataflow Compute: Sie werden abgerechnet, wenn das Staging aktiviert ist, basierend auf der Dauer des Verbrauchs der Lakehouse (Staging Storage) und Warehouse (Storage Compute) SQL-Engine.
  • Schnellkopie: Ihnen werden Gebühren berechnet, wenn Schnellkopie-Connectors aktiviert sind und im Dataflow basierend auf der Dauer des Kopierauftrags genutzt werden.
  • Spark Compute: Die Abrechnung erfolgt auf Grundlage der Spark-Ausführungsdauer und der Nutzung von Spark-Kernen, wenn MDF-Transformationen während Pipelineausführungen ausgeführt werden. MDF-Transformationsworkloads in Dataflow Gen2 werden derzeit über die Fabric Pipeline Dataflow-Aktivität ausgeführt.

Dataflow Gen2-Preismodell

Wie Preissätze bestimmt werden

Die Preisgestaltung von Dataflow Gen2 hängt davon ab, wie jede Abfrage Rechenressourcen nutzt. Für die Standard-Rechenleistung werden Abfragen auf der Mashup-Engine ausgeführt. Je nachdem, ob Ihr Dataflow Dataflow Gen2 (CI/CD) ist, variiert die Bewertung.

In Dataflow Gen2 (CI/CD) gibt es eine zweistufige Rate, die auf die Abfragedauer angewendet wird:

  • Wenn eine Abfrage unter 10 Minuten ausgeführt wird, wird sie mit 12 CU bewertet.
  • Wenn sie länger läuft, wird jede zusätzliche Sekunde mit 1,5 CU bewertet.

Wenn Ihr Dataflow Gen2 nicht CI/CD ist, beträgt die Rate 16 CU, die auf die gesamte Abfragedauer angewendet wird.

Für szenarien mit hoher Skalierung, wenn Staging aktiviert ist, werden Abfragen auf dem Sql-Modul Lakehouse oder Warehouse ausgeführt. Jede Sekunde der Berechnungszeit verwendet 6 CU-Sekunden, sodass längere Abfragen mehr verbrauchen.

Wenn Sie schnelle Kopie aktivieren, gibt es eine separate Rate für die Datenverschiebung: 1,5 CU, je nachdem, wie lange die Aktivität ausgeführt wird.

Bei MDF-Transformationsworkloads werden 1,5 CU pro Spark-Kernstunde berechnet, basierend auf der Spark-Ausführungsdauer und der Anzahl der für die Ausführung zugewiesenen Spark-Kerne.

Am Ende jeder Ausführung addiert Dataflow Gen2 die CU-Nutzung von jeder Engine und berechnet diese basierend auf den Fabric-Kapazitätspreisen in Ihrer Region.

CU-Satztabelle

Dataflow Gen2-Engine-Typ Verbrauchszähler Fabric CU-Verbrauchsrate Granularität der Verbrauchsmeldungen
Standard-Berechnung (Dataflow Gen2 (CI/CD)) Basierend auf der Ausführungsdauer jeder Mashup-Engine-Abfrage in Sekunden. Standard Compute verfügt je nach Abfragedauer über zwei Preisstufen. Für jede Sekunde innerhalb von bis zu 10 Minuten, 12 CU
- Für jede Sekunde über 10 Minuten, 1,5 CU
Pro Dataflow Gen2-Element
Standard Compute (nicht CI/CD) Basierend auf der Ausführungsdauer jeder Mashup-Engine-Abfrage in Sekunden. 16 Recheneinheiten (CU) Pro Dataflow Gen2-Element
Berechnen von Datenflüssen mit hoher Skalierung Basierend auf der Dauer der Ausführung der Lakehouse/Warehouse SQL-Engine (mit aktiviertem Staging) in Sekunden. 6 CU Pro Arbeitsbereich
Datenverschiebung Basierend auf der Laufzeit von Fast Copy in Sekunden und den verwendeten intelligenten Optimierungsdurchsatzressourcen. 1,5 CU Pro Dataflow Gen2-Element
Zuordnungsdatenfluss-Transformationsrechenleistung (Vorschau) Basierend auf der Ausführungsdauer der MDF-Transformation in Sekunden bei Verwendung von Spark-gestützter Rechenleistung in Dataflow Gen2. 1,5 CU pro Spark Core-Stunde

Beispiel: Ein 8-Core-Spark-Cluster verbraucht 12 CU für jede Stunde der Ausführung (8 × 1,5 CU).
Pro Dataflow Gen2-Element

Preise für virtuelles Netzwerkdatengateway mit Dataflow Gen2

Das Datengateway für das Virtuelle Netzwerk (VNET) wird als zusätzliche Infrastrukturgebühr in Verbindung mit einer Fabric-Kapazität in Rechnung gestellt. Das bedeutet, dass es über eine eigene Verbrauchseinheit verfügt und Kosten verursacht, die über alle Fabric-Artikelläufe hinweg konsistent sind und zusätzlich anfallen.

Die Gesamtkosten für den Betrieb von Dataflow Gen2 über das Datengateway für virtuelle Netzwerke werden wie folgt berechnet: Dataflow Gen2-Gebühr + Gebühr für das Datengateway für virtuelle Netzwerke.

Die Gebühr für das Virtual Network Data Gateway ist proportional zu Ihrer Nutzung des Virtual Network Data Gateway; die Nutzung ist dabei als Betriebszeit definiert, also als jede Zeit, in der das Virtual Network Data Gateway aktiv ist.

CU-Verbrauch des Datengateways für virtuelle Netzwerke: 4 CU

Erfahren Sie mehr unter Preise und Abrechnung für virtuelle Netzwerkdatengateways.

Änderungen an der Workload-Verbrauchsrate von Microsoft Fabric

Die Verbrauchsraten können jederzeit geändert werden. Microsoft unternimmt angemessene Anstrengungen, um eine Benachrichtigung per E-Mail und über produktinterne Benachrichtigungen bereitzustellen. Änderungen gelten ab dem Datum, das in den Versionshinweisen und dem Microsoft Fabric-Blog angegeben ist. Wenn eine Änderung der Microsoft Fabric Workload-Verbrauchsrate die für die Nutzung eines bestimmten Workloads erforderlichen Kapazitätseinheiten (Capacity Units, CU) wesentlich erhöht, können Kunden die für die gewählte Zahlungsmethode verfügbaren Stornierungsoptionen nutzen.

Geschätzte Kosten mithilfe der Fabric Metrics-App und des Aktualisierungsverlaufs des Datenflows berechnen

Die Microsoft Fabric-Kapazitätsmetriken-App bietet Einblicke in die Kapazitätsauslastung für alle Fabric-Arbeitsbereiche, die an eine Kapazität gebunden sind. Sie wird von Kapazitätsadministratoren verwendet, um die Leistung von Workloads und deren Nutzung im Vergleich zu erworbener Kapazität zu überwachen. Die Verwendung der Metrik-App ist die genaueste Methode, um die Kosten für Dataflow Gen2-Aktualisierungsausführungen zu schätzen. Um zu verstehen, wie sich die gestaffelten Preise auf Ihre Standardberechnungskosten auswirken, müssen Sie auch den Datenflussaktualisierungsverlauf verwenden.

Diese Übungen zeigen Ihnen, wie Sie Kosten sowohl für CI/CD als auch für Nicht-CI/CD-Datenflüsse überprüfen. Für den CI/CD-Datenfluss mit Standardberechnung wird ein arbeitsgestütztes Beispiel bereitgestellt, gefolgt von Anweisungen für alle anderen Szenarien.

Übung 1: Standardberechnung für einen CI/CD-Datenfluss

Der folgende Datenfluss verfügt über zwei Abfragen mit Transformation und Staging ist deaktiviert.

Screenshot mit Dataflow Gen2 mit zwei Abfragen.

Screenshot, der Dataflow Gen2 mit deaktivierter Staging-Funktion zeigt.

Dataflow Gen2 verwendet nur die Standardberechnung.

Greifen Sie für jede Abfrage auf die Abfragedauer aus dem Aktualisierungsverlauf zu und wenden Sie die folgende Formel an, um die CU-Auslastung pro Abfrage zu berechnen.

Bei der ersten Abfrage beträgt die Dauer 2.131 Sekunden.

Screenshot des Aktualisierungsverlaufs von Abfrage 1.

Ebenso beträgt die Dauer für die zweite Abfrage 913 Sekunden.

Screenshot des Aktualisierungsverlaufs von Abfrage 2.

StandardComputeCapacityConsumptionInCUSeconds = if(QueryDurationInSeconds < 600, QueryDurationInSeconds x 12, (QueryDurationInSeconds - 600) x 1.5 + 600 x 12)

Bei Abfrage 1 beträgt der berechnete Verbrauch 9497 CU-Sekunden und für Abfrage 2 beträgt der berechnete Verbrauch 7670 CU-Sekunden.

Aggregieren Sie den Kapazitätsverbrauch in CU-Sekunden, und überprüfen Sie den Verbrauch in der Fabric-Kapazitätsmetrik-App. In diesem Szenario zeigt die Metrik-App 17.180 CU-Sekunden als Standard Compute-Nutzung an, die sich gut mit dem berechneten Verbrauch von 17.167 CU-Sekunden vergleichen kann. Etwaige Abweichungen können auf Rundungen bei der periodischen Berichterstattung über die Nutzung zurückzuführen sein.

Screenshot der Fabric-Kapazitätsmetriken-App, die den Verbrauch des Datenflusses zeigt.

Übung 2: Standardberechnung für einen Nicht-CI/CD-Datenfluss

Wenn Ihr Datenfluss Transformationen umfasst und das Staging deaktiviert ist, verwendet Dataflow Gen2 nur die Standardcomputekapazität.

Greifen Sie für jede Abfrage auf die Abfragedauer aus dem Aktualisierungsverlauf zu und wenden Sie die folgende Formel an, um die CU-Auslastung pro Abfrage zu berechnen.

StandardComputeCapacityConsumptionInCUSeconds = QueryDurationInSeconds x 16

Aggregieren Sie den Kapazitätsverbrauch in CU-Sekunden, und überprüfen Sie den Verbrauch in der Fabric-Kapazitätsmetrik-App.

Übung 3: Verständnis von Computeauslastung im großen Maßstab (sowohl CI/CD- als auch Nicht-CI/CD-Datenflüsse)

Um herauszufinden, wie viel High Scale-Compute Ihr Dataflow verwendet hat, wenn er Staging verwendet, öffnen Sie die Fabric Capacity Metrics-App und filtern Sie nach dem Namen Ihres Dataflows. Klicken Sie mit der rechten Maustaste auf den Namen, suchen Sie in der Liste der Vorgänge nach hochskalierter Berechnung, und überprüfen Sie die Dauer.

HighScaleComputeCapacityConsumptionInCUSeconds = QueryDurationInSeconds x 6

Übung 4: Verstehen der Computeauslastung beim Schnellkopieren (sowohl für CI/CD- als auch für Datenflüsse ohne CI/CD)

Wenn Ihr Dataflow die Schnellkopie verwendet, öffnen Sie die Fabric Capacity Metrics App, und filtern Sie nach dem Namen Ihres Dataflows, um herauszufinden, wie viel Data-Movement-Compute Sie verwendet haben. Klicken Sie mit der rechten Maustaste auf den Namen, suchen Sie in der Liste der Vorgänge nach "Datenbewegung", und überprüfen Sie die Dauer.

FastCopyComputeCapacityConsumptionInCUSeconds = QueryDurationInSeconds x 1.5

Übung 5: Verständnis des Computeverbrauchs der Zuordnungsdatenflusstransformation

Wenn Ihr Dataflow Gen2 MDF-Transformationen verwendet, können Sie den Spark-Computeverbrauch über die Fabric-Kapazitätsmetriken-App überprüfen, indem Sie nach dem Namen Ihres Dataflow-Gen2-Elements filtern und die dem Lauf zugeordneten Spark-bezogenen Ausführungsvorgänge überprüfen.

MDFTransformComputeConsumptionInCUSeconds = (SparkExecutionDurationInSeconds × NumberOfSparkCores × 1.5) / 3600

Example:

30-minütige Ausführung mit 8 Spark-Kernen:

(1800 × 8 × 1.5) / 3600 = 6 CU-seconds

Weitere Überlegungen:

  • Die Startzeit der Spark-Laufzeit trägt zur Gesamtausführungsdauer bei.
  • Der Computeverbrauch für MDF-Transformationen ist getrennt vom Verbrauch für Mashup Engine, Fast Copy und High Scale Compute.
  • Debugsitzungen für MDF-Transformationen verwenden eine feste Spark-Konfiguration mit 8 Kernen und verbrauchen 12 CU pro Laufzeitstunde.