Schnellstart: Abrufen von Daten in OneLake

OneLake ist der einzelne, einheitliche Datensee für Microsoft Fabric. Jede Fabric Workload liest Und schreibt Daten über OneLake, sodass Sie Daten nur einmal laden müssen, um sie überall zu verwenden. Sie können Daten auf verschiedene Arten in OneLake integrieren:

  • Laden Sie Dateien direkt in ein Seehaus oder Lager hoch.
  • Erfassen Sie Daten mithilfe von Pipelines, Datenflüssen oder Streamingumgebungen.
  • Stellen Sie mithilfe von Tastenkombinationen oder Spiegelung eine Verbindung mit externen Daten her.

In dieser Schnellstartanleitung bringen Sie Daten auf zwei Arten in OneLake ein: Sie laden eine CSV-Datei in ein Seehaus hoch, und Sie erstellen eine OneLake-Verknüpfung aus einem zweiten Seehaus, das auf dieselben Daten verweist, ohne sie zu kopieren. Wenn Sie fertig sind, verfügen Sie über eine abfragbare Delta-Tabelle und eine Verknüpfung, die beide über OneLake für jede Fabric-Engine verfügbar sind.

Voraussetzungen

Erstellen eines Seehauses

Wenn Sie ein Fabric-Element wie ein Lakehouse, ein Warehouse oder ein Eventhouse erstellen, wird für dieses Element in OneLake Speicher für Sie bereitgestellt. In dieser Schnellstartanleitung erstellen Sie ein Seehaus, mit dem Sie sowohl einen Dateibereich (Dateien) für unstrukturierte oder halbstrukturierte Daten als auch einen Delta-Tabellenbereich (Tabellen) für strukturierte, abfragbare Daten erhalten. Alles, was Sie in einem der beiden Bereiche ablegen, wird in OneLake gespeichert und ist für andere Fabric-Workloads sofort zugänglich.

  1. Melden Sie sich beim portal Fabric an, und wählen Sie Ihren Arbeitsbereich aus.

  2. Wählen Sie Neues Element aus.

  3. Suchen Sie im Bereich "Neues Element " nach "Lakehouse", und wählen Sie "Lakehouse" aus.

  4. Geben Sie einen Namen ein, z DataLakehouse. B. und wählen Sie dann "Erstellen" aus.

    Das Seehaus wird in der Explorer-Ansicht geöffnet, in der leere Tabellen - und Dateiabschnitte angezeigt werden. Beide Abschnitte werden bereits von OneLake unterstützt und sind bereit für Inhalte.

Hochladen von Beispieldaten

In dieser Schnellstartanleitung verwenden Sie Dim_Products.csv aus einem öffentlich verfügbaren Fabric Beispieldatensatz. Es ist eine kleine Tabelle mit Produktinformationen aus einem Beispielkaffeehändler.

  1. Öffnen Sie einen Browser, und wechseln Sie zu https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv.
  2. Wenn Sie dazu aufgefordert werden, speichern Sie die Datei als Dim_Products.csv in einem Ordner auf Ihrem Computer.

In diesem Abschnitt laden Sie Dim_Products.csv in Dateien hoch, damit Ihre Rohquelldaten in OneLake gespeichert sind. Der Bereich Dateien eines Lakehouse ist ein Speicherbereich für allgemeine Zwecke in OneLake. Betrachten Sie es als die Landezone für Rohdaten, in welchem Format sie auch ankommen. Sie können CSV, JSON, Parkett, Bilder, Protokolle oder andere Elemente ablegen, ohne zuerst ein Schema definieren zu müssen.

  1. Zeigen Sie im Lakehouse-Explorer auf Dateien, wählen Sie das Menü ... (Weitere Optionen) aus, und wählen Sie dann Hochladen>Dateien hochladen aus.

  2. Wählen Sie im Bereich "Dateien hochladen " das Ordnersymbol aus, und navigieren Sie zu Dim_Products.csv Ihrem Computer.

  3. Wählen Sie "Hochladen" aus, und schließen Sie dann den Uploadbereich.

  4. Wählen Sie den Ordner "Dateien " aus, um dessen Inhalt anzuzeigen und zu bestätigen, dass Dim_Products.csv angezeigt wird.

  5. Wählen Sie Dim_Products.csv aus, um seine Daten anzuzeigen.

    Ein Screenshot des Fabric-Portals, der unstrukturierte CSV-Daten im Abschnitt „Dateien“ eines Lakehouses zeigt.

Die Datei befindet sich jetzt in OneLake, aber als unformatierte CSV ist es noch nicht so, dass SQL oder Spark als Tabelle abfragen kann.

Laden Sie die Datei in eine Delta-Tabelle

Fabric verwendet Delta Lake als Standard-Tabellenformat in OneLake. Wenn Sie eine Datei in den Bereich Tables laden, liest Fabric die Quelldatei, leitet ein Schema ab und schreibt die Daten als Delta-Tabelle aus. Ab diesem Zeitpunkt kann jedes Fabric Modul dieselbe Tabelle abfragen, ohne die Daten erneut zu kopieren oder zu konvertieren.

  1. Öffnen Sie im Lakehouse-Explorer den Ordner Dateien.

  2. Zeigen Sie mit der Maus auf die Dim_Products.csv Datei, und wählen Sie das Menü "Weitere Optionen(...)" aus, und wählen Sie dann " In Tabellen>neu laden" aus.

  3. Geben Sie im Dialogfeld "dim_products" den Tabellennamen ein, behalten Sie die Standardwerte bei, und wählen Sie "Laden" aus.

  4. Erweitern Sie nach Abschluss des Ladevorgangs Tabellen und wählen Sie dim_products aus, um eine Vorschau der Zeilen anzuzeigen. Die rohe CSV-Datei in Dateien ist unverändert, und dim_products ist eine neue Delta-Tabelle, die daraus erstellt wurde.

    Ein Screenshot, der strukturierte Daten einer Delta-Tabelle im Abschnitt „Tabellen“ eines Lakehouse zeigt.

  5. Zeigen Sie mit der Maus, dim_products und wählen Sie das Menü "Weitere Optionen(...)" aus, und wählen Sie dann "Eigenschaften" aus.

    Auf der Seite Properties werden die verschiedenen Details zur Tabelle angezeigt, einschließlich der URL und des Azure Blob File System (ABFS)-Pfads, die Sie verwenden können, um in anderen Engines auf diese Tabelle zu verweisen.

Daten mithilfe einer Verknüpfung aus einem zweiten Lakehouse wiederverwenden

Das Hochladen und Laden ist eine Möglichkeit, Daten in OneLake zu übertragen. Das andere Schlüsselmuster besteht darin, auf Daten zu verweisen, die bereits an einer anderen Stelle vorhanden sind, ohne sie zu duplizieren. Das ist eine Verknüpfung: ein Zeiger in OneLake, der auf Daten verweist, die in einem anderen Lakehouse, in einem anderen Fabric-Arbeitsbereich oder in unterstützten Datenquellen außerhalb von Fabric wie Azure Data Lake Storage oder Amazon S3 gespeichert sind. Die Daten werden nicht kopiert; es verbleibt im Quellspeicherort, aber Sie können es über OneLake lesen, als wäre es lokal. Alle Aktualisierungen der Quelle werden sofort über die Verknüpfung angezeigt, sodass Sie keine Kopien der Daten verwalten müssen.

In diesem Abschnitt erstellen Sie ein zweites Lakehouse und fügen darin eine Verknüpfung zurück zur dim_productsTabelle in Ihrem ersten Lakehouse hinzu. Dies spiegelt wider, wie Teams in der Regel arbeiten: Ein Team besitzt die kuratierten Daten, und andere Teams oder Projekte greifen in ihren eigenen Arbeitsbereichen über Verknüpfungen darauf zu.

  1. Wählen Sie in Ihrem Arbeitsbereich "Neues Element" aus.
  2. Suchen Sie im Bereich "Neues Element " nach "Lakehouse", und wählen Sie "Lakehouse" aus.
  3. Geben Sie einen Namen ein, z ShortcutLakehouse. B. und wählen Sie dann "Erstellen" aus.
  4. Bewegen Sie im Explorer des neuen Lakehouse den Mauszeiger auf Tabellen, wählen Sie das Menü ... (Weitere Optionen) und anschließend Neue Verknüpfung aus.
  5. Auf der Seite Neue Verknüpfung wählen Sie unter Interne QuellenMicrosoft OneLake aus.
  6. Wählen Sie im Datenquellenbrowser das erste Lakehouse aus, das Sie für diese Schnellstartanleitung erstellt haben, und wählen Sie dann "Weiter" aus.
  7. Erweitern Sie Tabellen, wählen Sie die dim_products Tabelle aus, und wählen Sie dann "Weiter" aus.
  8. Überprüfen Sie die Auswahl, und wählen Sie "Erstellen" aus.
  9. Erweitern Sie Tabellen in ShortcutLakehouse und bestätigen Sie, dass dim_products mit einem Verknüpfungssymbol angezeigt wird (ein kleines Linkbild über dem Tabellensymbol). Wählen Sie es aus, um eine Vorschau der Zeilen anzuzeigen. Die Tabelle ist identisch mit dem ursprünglichen Seehaus, aber es wurden keine Daten kopiert.
  10. Bewegen Sie den Mauszeiger über die dim_productsTabelle, wählen Sie Weitere Optionen (...) und anschließend Verknüpfung verwalten aus. Im Bereich Verknüpfung verwalten können Sie die Details der Verknüpfung anzeigen, einschließlich des Verknüpfungsziels, in dem die ursprünglichen Daten gespeichert sind.

Bereinigen von Ressourcen

Wenn Sie nicht vorhaben, mit den anderen OneLake-Schnellstarts fortzufahren, löschen Sie die Lakehouses, um zu vermeiden, dass OneLake-Speichergebühren Ihrer Fabric-Kapazität belastet werden.

  1. Zeigen Sie in Ihrem Arbeitsbereich auf das Lakehouse, das Sie löschen möchten.
  2. Wählen Sie das Menü "Weitere Optionen" (...) neben dem Seehaus aus, wählen Sie "Löschen" aus, und bestätigen Sie den Löschvorgang.

Durch das Löschen der Lakehouses werden auch die darin enthaltenen Inhalte entfernt: die hochgeladene Datei, die dim_products Delta-Tabelle und die Verknüpfung.