End-to-End-Szenario von Data Factory: Einführung und Architektur

Dieses Lernprogramm führt Sie in etwa einer Stunde durch ein vollständiges Datenintegrationsszenario. Sie lernen die wichtigsten Funktionen von Data Factory in Microsoft Fabric kennen und erfahren, wie Sie sie auf allgemeine Datenworkflows anwenden.

Was Sie erstellen werden

Dieses Lernprogramm enthält eine Einführung und drei Module:

Datenfabrik in Microsoft Fabric

Microsoft Fabric ist eine einheitliche Analyseplattform, die Datenbewegungen, Datenseen, Datentechnik, Datenintegration, Data Science, Echtzeitanalysen und Business Intelligence umfasst. Sie müssen keine Dienste von mehreren Anbietern zusammenstellen.

Data Factory in Fabric kombiniert die benutzerfreundliche Verwendung von Power Query mit der Skalierung von Azure Data Factory. Es bietet Low-Code-Datenvorbereitung mit KI-Unterstützung, Transformation im Petabyte-Maßstab und Hunderte von Konnektoren mit Hybrid- und Multicloud-Konnektivität.

Wichtigste Funktionen

Data Factory bietet drei Kernfunktionen für Ihre Datenintegrationsanforderungen:

  • Datenaufnahme mit Kopierauftrag: Ein Kopierauftrag ist der empfohlene Ausgangspunkt für die Datenaufnahme. Sie verschiebt Petabyte-Daten aus Hunderten von Datenquellen in Ihr Lakehouse mit nativer Unterstützung für Massen-, inkrementelles und CDC-basiertes Kopieren – ohne eine Pipeline zu erstellen.
  • Datentransformation: Dataflow Gen2 bietet eine Low-Code-Schnittstelle zum Transformieren Ihrer Daten mit 300+ Transformationen. Sie können Ergebnisse in mehrere Ziele wie Azure SQL Database, Lakehouse und mehr laden.
  • End-to-End-Automatisierung: Pipelines koordinieren Aktivitäten, einschließlich Kopierauftrag, Datenfluss, Notizbuch und mehr. Verketten Sie Aktivitäten, die sequenziell oder parallel ausgeführt werden. Überwachen Des gesamten Datenintegrationsflusses an einer zentralen Stelle.

Lernprogrammarchitektur

Sie werden alle drei wichtigsten Features erkunden, während Sie ein End-to-End-Datenintegrationsszenario abschließen.

Das Szenario umfasst drei Module:

  1. Aufnehmen von Daten mit einem Kopierauftrag: Erstellen Sie einen eigenständigen Kopierauftrag, um Rohdaten aus Blob Storage in eine Bronzetabelle in einem Lakehouse aufzunehmen.
  2. Transformieren Sie Daten mit einem Datenfluss: Verarbeiten Sie die Rohdaten aus Ihrer Bronzetabelle , und verschieben Sie sie in eine goldfarbene Tabelle.
  3. Koordinieren und Automatisieren mit einer Pipeline: Erstellen Sie eine Pipeline, um den Kopierauftrag und den Datenfluss zu koordinieren, eine E-Mail-Benachrichtigung zu senden und den gesamten Fluss zu planen.

Diagramm, das den in diesem Lernprogramm behandelten Datenfluss und Module zeigt.

In diesem Lernprogramm wird das NYC-Taxi-Beispiel-Dataset verwendet. Wenn Sie fertig sind, können Sie tägliche Rabatte auf Taxitarife für einen bestimmten Zeitraum analysieren, indem Sie Data Factory in Microsoft Fabric verwenden.

Nächster Schritt