Freigeben über


Was ist Data Wrangling?

Gilt für: Azure Data Factory Azure Synapse Analytics

Tipp

Data Factory in Microsoft Fabric ist die nächste Generation von Azure Data Factory mit einer einfacheren Architektur, integrierter KI und neuen Features. Wenn Sie mit der Datenintegration noch nicht vertraut sind, beginnen Sie mit Fabric Data Factory. Vorhandene ADF-Workloads können auf Fabric aktualisiert werden, um auf neue Funktionen in der Datenwissenschaft, Echtzeitanalysen und Berichterstellung zuzugreifen.

Data Wrangling umfasst das Transformieren und Neuformatieren von Daten aus der ursprünglichen Quelle, um sie für verschiedene nachgeschaltete Anwendungen besser geeignet und nützlicher zu machen.

Organisationen müssen in der Lage sein, Ihre wichtigen Geschäftsdaten für die Datenaufbereitung und das Wrangling zu untersuchen, um eine exakte Analyse komplexer Daten zu ermöglichen, die täglich weiter anwachsen. Die Datenaufbereitung ist erforderlich, damit Organisationen die Daten in verschiedenen Geschäftsprozessen verwenden und die Amortisationszeit verkürzen können.

Data Factory ermöglicht Ihnen die codefreie Datenvorbereitung im Cloudmaßstab iterativ mithilfe von Power Query. Data Factory ist in Power Query Online integriert und stellt Power Query M-Funktionen als Pipelineaktivität zur Verfügung.

Data Factory übersetzt das vom Power Query Online Mashup-Editor generierte M in Sparkcode zur Ausführung im Cloud-Maßstab, indem es M in Azure Data Factory Datenflüsse übersetzt. Das Wrangieren von Daten mit Power Query und Datenflüssen ist besonders für Dateningenieure oder "Bürgerdatenintegratoren" nützlich.

Anwendungsfälle

Schnelle interaktive Untersuchung und Aufbereitung von Daten

Mehrere Datentechniker und Datenintegratoren ohne Programmiererfahrung können Datasets in der Cloud interaktiv untersuchen und aufbereiten. Mit zunehmender Menge, Vielfalt und Geschwindigkeit der Daten in Data Lakes benötigen Benutzer eine effektive Möglichkeit zum Untersuchen und Aufbereiten von Datasets. Beispielsweise müssen Sie möglicherweise ein Dataset erstellen, das über alle demografischen Informationen zu neuen Kunden seit 2017 verfügt. Sie nehmen keine Zuordnung zu einem bekannten Ziel vor. Vor dem Veröffentlichen im Lake unterziehen Sie Datasets der Untersuchung, dem Wrangling und der Aufbereitung, damit sie eine Anforderung erfüllen. Wrangling wird häufig für weniger formale Analyseszenarien verwendet. Die aufbereiteten Datasets können für Downstreamtransformationen und -Machine Learning-Vorgänge verwendet werden.

Codefreie agile Datenaufbereitung

Die Datenintegratoren ohne Programmiererfahrung verbringen mehr als 60 % ihrer Zeit mit dem Suchen nach und Aufbereiten von Daten. Sie versuchen, dies ohne Code durchzuführen, um die operative Produktivität zu verbessern. Indem Bürgerdatenintegratoren das Anreichern, Gestalten und Veröffentlichen von Daten mithilfe bekannter Tools wie Power Query Online in einer skalierbaren Weise erlaubt wird, verbessert sich ihre Produktivität erheblich. Das Wrangling in Azure Data Factory ermöglicht es dem vertrauten Power Query Online Mashup-Editor, Bürgerdatenintegratoren zu ermöglichen, Fehler schnell zu beheben, Daten zu standardisieren und qualitativ hochwertige Daten zu erstellen, um Geschäftsentscheidungen zu unterstützen.

Datenüberprüfung und -untersuchung

Überprüfen Sie Ihre Daten visuell ohne Code, um alle Ausreißer sowie Anomalien zu entfernen und sie in eine Form zu bringen, die eine schnelle Analyse ermöglicht.

Unterstützte Quellen

Anschluss Datenformat Authentifizierungsart
Azure Blob Storage CSV, Parquet, Excel Kontoschlüssel, Dienstprinzipal, MSI
Azure Data Lake Storage Gen1 CSV, Parquet, Excel Dienstprinzipal, MSI
Azure Data Lake Storage Gen2 CSV, Parquet, Excel Kontoschlüssel, Dienstprinzipal, MSI
Azure SQL-Datenbank - SQL-Authentifizierung, MSI, Dienstprinzipal
Azure Synapse Analytics - SQL-Authentifizierung, MSI, Dienstprinzipal

Mashup-Editor

Wenn Sie eine Power Query Aktivität erstellen, werden alle Quelldatensets zu Datasetabfragen und werden im Ordner ADFResource platziert. Standardmäßig zeigt die UserQuery auf die erste Datasetabfrage. Alle Transformationen sind für die UserQuery durchzuführen, da Änderungen an Datasetabfragen weder unterstützt noch beibehalten werden. Das Umbenennen, Hinzufügen und Löschen von Abfragen werden derzeit nicht unterstützt.

Wrangling

Derzeit werden nicht alle Power Query M-Funktionen für das Wrangieren von Daten unterstützt, obwohl sie während der Dokumenterstellung verfügbar sind. Beim Erstellen Ihrer Power Query-Aktivitäten werden Sie mit der folgenden Fehlermeldung aufgefordert, wenn eine Funktion nicht unterstützt wird:

The Power Query Spark Runtime does not support the function

Weitere Informationen zu unterstützten Transformationen finden Sie in Power Query Datenaufbereitungsfunktionen.

Erfahren Sie, wie Sie ein Power Query-Mash-up zur Datenaufbereitung erstellen.