Lakehouse SQL Analytics-Endpunkt-Anwendungsfälle

Der SQL-Analyseendpunkt ist eine leseoptimierte T-SQL-Oberfläche über Delta-Daten in Microsoft Fabric. In diesem Artikel werden der Data-Warehousing-Workload in Fabric mit dem SQL-Analyseendpunkt des Lakehouse sowie Szenarien für die Verwendung des Lakehouse für Data-Warehousing erläutert.

Was ist ein Lakehouse SQL-Analyseendpunkt?

Mit dem SQL-Analyseendpunkt können Sie Daten im Lakehouse mithilfe der T-SQL-Sprache und des TDS-Protokolls abfragen.

  • Der SQL-Analyseendpunkt macht Delta-Tabellen aus dem Lakehouse als SQL-Tabellen verfügbar, die Sie mit T-SQL abfragen können.
  • Jede Deltatabelle aus einem Lakehouse wird als eine einzige Tabelle dargestellt. Daten sollten im Deltaformat vorliegen.
  • Jedes Lakehouse hat einen SQL-Analyseendpunkt, und jeder Arbeitsbereich kann mehrere Lakehouse-Instanzen aufweisen. Die Anzahl der SQL-Analyseendpunkte in einem Arbeitsbereich entspricht der Anzahl der Lakehouse-Elemente.

Sie müssen keinen SQL-Analyseendpunkt in Microsoft Fabric erstellen. Ein SQL-Analyseendpunkt wird automatisch für jedes Lakehouse, jede Datenbank oder gespiegelte Datenbank erstellt. Ein SQL-Analyseendpunkt fungiert als einfache Data Warehouse-Funktion für ihre übergeordneten Elemente und ergänzt die Lakehouse-Architektur des Lagers. Diese Architektur ermöglicht es Spark oder Fabric-Mirroring, die Daten in einer Ordnerstruktur im Lakehouse zu verwalten, die vom SQL-Analyseendpunkt eingesehen werden kann.

Note

Hinter den Kulissen verwendet der SQL-Analyseendpunkt dasselbe Modul wie das Warehouse für sql-Abfragen mit hoher Leistung und geringer Latenz.

Automatische Metadatenermittlung

Ein nahtloser Prozess liest die Delta-Protokolle aus dem /Tables Ordner und stellt sicher, dass SQL-Metadaten für Tabellen wie Statistiken immer auf dem neuesten Stand sind. Eine Benutzeraktion ist nicht erforderlich, und es ist auch nicht erforderlich, Daten zu importieren, zu kopieren oder eine Infrastruktur einzurichten. Weitere Informationen finden Sie unter Automatisch generiertes Schema im SQL-Analyseendpunkt.

Szenarien, die das Lakehouse für Data Warehousing ermöglicht

In Fabric bieten wir ein einziges Warehouse an.

Das Lakehouse mit seinem SQL-Analyseendpunkt, der vom Warehouse unterstützt wird, kann die herkömmliche Entscheidungsstruktur von Batch-, Streaming- oder Lambda-Architekturmustern vereinfachen. Zusammen mit einem Warehouse ermöglicht das Lakehouse viele additive Analyseszenarien. In diesem Abschnitt wird erläutert, wie Sie ein Lakehouse zusammen mit einem Warehouse nutzen können, um eine optimale Analysestrategie zu erzielen.

Analysen mit der Goldschicht des Fabric Lakehouse

Eine bekannte Strategie für die Organisation von Seedaten ist die Medallion-Architektur. Diese Strategie organisiert Dateien in rohe (Bronze), konsolidierte (Silber) und verfeinerte (Gold)-Schichten. Sie können einen SQL-Analyseendpunkt verwenden, um Daten in der Goldschicht der Medallion-Architektur zu analysieren, wenn die Dateien im Delta Lake-Format gespeichert werden, auch wenn sie außerhalb der Microsoft Fabric OneLake gespeichert sind.

Verwenden Sie OneLake-Verknüpfungen, um auf Goldordner in externen Azure Data Lake Speicherkonten zu verweisen, die Synapse Spark oder Azure Databricks Engines verwalten.

Sie können Lagerhäuser auch als Themenbereich oder domänenorientierte Lösungen für bestimmte Themen hinzufügen, die maßgeschneiderte Analyseanforderungen haben können.

Wenn Sie sich dafür entscheiden, Ihre Daten in Fabric zu speichern, ist es always offen und zugänglich über APIs, das Delta-Format und natürlich T-SQL.

Abfrage als Dienstleistung über Ihre Deltatabellen aus Lakehouse und andere Elemente aus OneLake

Analysten, Data Scientists und Dateningenieure müssen möglicherweise Daten in einem Datensee abfragen. In Fabric ist dieses End-to-End-Erlebnis vollständig als SaaS umgesetzt.

OneLake ist ein einziger, einheitlicher, logischer Data Lake für die gesamte Organisation. OneLake ist OneDrive für Daten. OneLake kann mehrere Arbeitsbereiche enthalten, z. B. entlang Ihrer Organisationsbereiche. Jedes Element in Fabric macht Daten über OneLake zugänglich.

Daten in einem Microsoft Fabric-Lakehouse werden in OneLake mit der folgenden Ordnerstruktur physisch gespeichert:

  • Der /Files Ordner enthält rohe und nichtsolidierte (Bronze)-Dateien, die Datentechniker vor der Analyse verarbeiten sollten. Die Dateien können in verschiedenen Formaten wie CSV, Parkett, verschiedenen Arten von Bildern und mehr vorliegen.
  • Der /Tables Ordner enthält verfeinerte und konsolidierte (Gold)-Daten, die für die Geschäftsanalyse bereit sind. Die konsolidierten Daten sind im Delta Lake-Format.

Ein SQL-Analyseendpunkt kann Daten innerhalb von OneLake im Ordner /tables lesen. Die Analyse ist so einfach wie das Abfragen des SQL-Analyseendpunkt von Lakehouse. Mit dem Warehouse erhalten Sie außerdem datenbankübergreifende Abfragen und die Möglichkeit, nahtlos von schreibgeschützten Abfragen zum Erstellen zusätzlicher Geschäftslogik auf Basis Ihrer OneLake-Daten mit Fabric Data Warehouse zu wechseln.

Datentechnik mit Spark und Bereitstellen mit SQL

Datengesteuerte Unternehmen müssen ihre Back-End- und Analysesysteme nahezu in Echtzeit mit kundenorientierten Anwendungen synchronisieren. Die Auswirkung von Transaktionen muss in End-to-End-Prozessen, verwandten Anwendungen und OLTP-Systemen (Online Transaction Processing, Onlinetransaktionsverarbeitung) exakt widergespiegelt werden.

In Fabric können Sie Spark Streaming oder Datentechnik zum Zusammenstellen Ihrer Daten verwenden. Sie können mithilfe des Lakehouse SQL-Analyseendpunkts die Datenqualität und vorhandene T-SQL-Prozesse überprüfen. Dies kann in einer Medallion-Architektur oder innerhalb mehrerer Ebenen Ihres Lakehouses geschehen, um Bronze-, Silber-, Gold- oder Staging-Daten sowie kuratierte und raffinierte Daten bereitzustellen. Sie können die über Spark erstellten Ordner und Tabellen anpassen, damit sie Ihre Datentechnik- und Geschäftsanforderungen erfüllen. Wenn ein Warehouse eingerichtet ist, können Sie es für alle Ihre Downstream-Business-Intelligence-Anwendungen und sonstigen Analyseanwendungsfälle nutzen, ohne Daten zu kopieren, Ansichten zu verwenden oder Daten mithilfe von CREATE TABLE AS SELECT (CTAS), gespeicherten Prozeduren und anderen DML/DDL-Befehlen zu verfeinern.

Integration mit der Goldschicht Ihres Open Lakehouses

Ein SQL-Analyseendpunkt ist nicht nur auf Datenanalysen im Fabric Lakehouse beschränkt. Mithilfe eines SQL-Analyseendpunkts können Sie Seedaten in jedem Seehaus mithilfe von Synapse Spark, Azure Databricks oder einem anderen seeorientierten Datentechnikmodul analysieren. Sie können die Daten in Azure Data Lake Storage oder Amazon S3 speichern.

Sie können jederzeit auf diese enge bidirektionale Integration mit dem Fabric Lakehouse über jedes Modul zugreifen, indem Sie offene APIs, das Delta-Format und natürlich T-SQL verwenden.

Datenvirtualisierung externer Data Lakes mit Verknüpfungen

Verwenden Sie OneLake shortcuts, um auf Goldordner in externen Azure Data Lake Speicherkonten zu verweisen, die Synapse Spark oder Azure Databricks Engines verwalten, sowie auf alle delta-Tabellen, die in Amazon S3 gespeichert sind.

Sie können jeden Ordner analysieren, auf den von einem SQL-Analyseendpunkt verwiesen wird, und eine SQL-Tabelle für die referenzierten Daten erstellen. Verwenden Sie die SQL-Tabelle, um Daten in extern verwalteten Datenseen verfügbar zu machen und analysen darauf zu aktivieren.

Diese Verknüpfung fungiert als virtuelles Warehouse, das Sie in einem Warehouse für zusätzliche nachgelagerte Analyseanforderungen nutzen oder direkt abfragen können.

Führen Sie die folgenden Schritte aus, um Daten in Speicherkonten des externen Data Lake zu analysieren:

  1. Erstellen Sie eine Verknüpfung, die auf einen Ordner in Azure Data Lake Storage oder im Amazon S3-Konto verweist. Nachdem Sie Verbindungsdetails und Anmeldeinformationen eingegeben haben, wird im Lakehouse eine Verknüpfung angezeigt.
  2. Wechseln Sie zum SQL-Analyseendpunkt des Lakehouse, und suchen Sie nach einer SQL-Tabelle mit einem Namen, der mit dem Verknüpfungsnamen übereinstimmt. Diese SQL-Tabelle verweist auf den Ordner in ADLS oder S3.
  3. Abfragen der SQL-Tabelle, die auf Daten in ADLS oder S3 verweist. Verwenden Sie die Tabelle wie jede andere Tabelle im SQL-Analyseendpunkt. Sie können Tabellen verknüpfen, die auf Daten in verschiedenen Speicherkonten verweisen.

Note

Wenn die SQL-Tabelle nicht sofort im SQL-Analyseendpunkt angezeigt wird, warten Sie einige Minuten. Die SQL-Tabelle, die auf Daten im externen Speicherkonto verweist, wird mit einer Verzögerung erstellt.

Analysieren archivierter oder historischer Daten in einem Datensee

Die Datenpartitionierung ist eine bekannte Technik zur Optimierung des Datenzugriffs in Data Lakes. Speichern Sie partitionierte Datasets in hierarchischen Ordnerstrukturen im Format /year=<year>/month=<month>/day=<day>, wobei year, wo , monthund day die Partitionierungsspalten sind. Diese Struktur hält historische Daten logisch getrennt und ermöglicht es Verarbeitungs-Engines, die Daten bei Bedarf mithilfe leistungsfähiger Filter zu lesen, anstatt das gesamte Verzeichnis und alle darin enthaltenen Ordner und Dateien zu lesen.

Partitionierte Daten ermöglichen einen schnelleren Zugriff, wenn die Abfragen nach den Prädikaten filtern, die Prädikatspalten mit einem Wert vergleichen.

Ein SQL-Analyseendpunkt kann diesen Datentyp problemlos lesen, ohne dass eine Konfiguration erforderlich ist. Sie können Daten beispielsweise mithilfe einer beliebigen Anwendung in einem Data Lake archivieren, einschließlich SQL Server 2022 oder Azure SQL Managed Instance. Nachdem Sie Daten partitioniert und in einem See zu Archivierungszwecken mithilfe externer Tabellen landen, kann ein SQL-Analyseendpunkt partitionierte Delta Lake-Tabellen als SQL-Tabellen lesen und es Ihrer Organisation ermöglichen, sie zu analysieren. Dieser Ansatz reduziert die Gesamtbetriebskosten, verringert die Datenredundanz und ermöglicht Big-Data-, KI- und andere Analyseszenarien.

Sie können auch Zeitreiseabfragen verwenden, um frühere Versionen von Daten schnell abzufragen. Die Zeitreise ist eine kostengünstige und effiziente Funktion zum Abfragen der letzten Datenzustände mit T-SQL-Abfragen. Bei einem SQL-Analyseendpunkt in Lakehouse ist die Zeitreise durch Vakuumaufbewahrungseinstellungen begrenzt. Informationen für den Einstieg finden Sie unter Anleitung: Abfragen mit Time Travel auf Anweisungsebene.

Datenvirtualisierung von Fabric-Daten mit Shortcuts

In Fabric ermöglichen Ihnen Arbeitsbereiche die Trennung von Daten basierend auf komplexen geschäftlichen, geografischen oder gesetzlichen Anforderungen.

Ein SQL-Analyseendpunkt ermöglicht es Ihnen, die Daten an Ort und Stelle zu belassen und sie im Warehouse oder Lakehouse über eine nahtlose Virtualisierung weiterhin zu analysieren – sogar in anderen Microsoft Fabric-Arbeitsbereichen. Jedes Microsoft Fabric-Lakehouse speichert Daten in OneLake.

Verknüpfungen ermöglichen es Ihnen, auf Ordner an einem beliebigen OneLake-Speicherort zu verweisen.

Jedes Microsoft Fabric-Warehouse speichert Tabellendaten in OneLake. Wenn eine Tabelle nur angefügt werden kann, werden die Tabellendaten in OneLake als Delta Lake-Daten verfügbar gemacht. Mithilfe von Verknüpfungen können Sie auf Ordner in jedem beliebigen OneLake-Objekt verweisen, in dem die Warehouse-Tabellen verfügbar gemacht werden.

Arbeitsbereichsübergreifende Freigabe und Abfragen

Arbeitsbereiche ermöglichen es Ihnen zwar, Daten basierend auf komplexen geschäftlichen, geografischen oder gesetzlichen Anforderungen abzutrennen, aber manchmal müssen Sie die Freigabe über diese Grenzen hinweg für bestimmte Analyseanforderungen ermöglichen.

Ein Lakehouse-SQL-Analyseendpunkt kann eine einfache Freigabe von Daten zwischen Abteilungen und Benutzern ermöglichen, wobei Benutzer ihre eigene Kapazität und ihr eigenes Datenlager verwenden können. Arbeitsbereiche organisieren Abteilungen, Geschäftseinheiten oder analytische Domänen. Mithilfe von Tastenkombinationen können Benutzer die Daten von Warehouse oder Lakehouse finden. Benutzer können ihre eigenen benutzerdefinierten Analysen aus denselben freigegebenen Daten sofort durchführen. Dieser Ansatz hilft nicht nur bei abteilungsbezogenen Rückbuchungen und der Nutzungszuordnung, sondern ist auch eine Zero-Copy-Version der Daten.

Der SQL-Analyseendpunkt ermöglicht das Abfragen einer beliebigen Tabelle und die einfache Freigabe. Sie können Kontrollen durch die Verwendung von Arbeitsbereichsrollen und Sicherheitsrollen hinzufügen, um zusätzliche Geschäftsanforderungen zu erfüllen.

Führen Sie die folgenden Schritte aus, um arbeitsbereichübergreifende Datenanalysen zu ermöglichen:

  1. Erstellen Sie eine OneLake-Verknüpfung, die auf eine Tabelle oder einen Ordner in einem Arbeitsbereich verweist, auf den Sie zugreifen können.
  2. Wählen Sie ein Lakehouse oder Warehouse aus, das die Tabelle oder den Delta Lake-Ordner enthält, die bzw. den Sie analysieren möchten. Wenn Sie eine Tabelle oder einen Ordner auswählen, wird im Lakehouse eine Verknüpfung angezeigt.
  3. Wechseln Sie zum SQL-Analyseendpunkt des Lakehouse, und suchen Sie nach der SQL-Tabelle mit einem Namen, der mit dem Verknüpfungsnamen übereinstimmt. Diese SQL-Tabelle verweist auf den Ordner in einem anderen Arbeitsbereich.
  4. Fragen Sie die SQL-Tabelle ab, die auf Daten in einem anderen Arbeitsbereich verweist. Sie können die Tabelle wie jede andere Tabelle im SQL-Analyseendpunkt verwenden. Sie können die Tabellen verknüpfen, die auf Daten in verschiedenen Arbeitsbereichen verweisen.

Weitere Informationen zur Sicherheit im SQL-Analyseendpunkt finden Sie unter OneLake-Sicherheit für SQL-Analyseendpunkte.

Note

Wenn die SQL-Tabelle nicht sofort im SQL-Analyseendpunkt angezeigt wird, warten Sie einige Minuten. Die SQL-Tabelle, die auf Daten in einem anderen Arbeitsbereich verweist, wird mit einer Verzögerung erstellt.

Analysieren von partitionierten Daten

Die Datenpartitionierung ist eine bekannte Technik zur Optimierung des Datenzugriffs in Data Lakes. Sie speichern partitionierte Datasets in hierarchischen Ordnerstrukturen im Format /year=<year>/month=<month>/day=<day>, wobei year, wo , monthund day die Partitionierungsspalten sind. Partitionierte Datasets ermöglichen einen schnelleren Datenzugriff, wenn die Abfragen Prädikate verwenden, die Daten filtern, indem Prädikatspalten mit einem Wert verglichen werden.

Ein SQL-Analyseendpunkt kann partitionierte Delta Lake-Datasets als SQL-Tabellen darstellen und Ihnen deren Analyse ermöglichen.

Weitere Informationen und Beispiele zum Abfragen externer Daten finden Sie unter Externe Data-Lake-Dateien mit Fabric Data Warehouse oder SQL Analytics Endpoint abfragen. Ein Beispiel und ein Anwendungsfall zum Abfragen partitionierter Parkettdateien finden Sie unter "Partitionierte Abfragedaten".

Analysieren von Daten im Lakehouse, Warehouse oder Eventhouse

Die Hauptseiten „Lakehouse“ und „Warehouse“ enthalten den Eventhouse-Endpunkt als Teil des Menüs Daten analysieren. Der Eventhouse-Endpunkt bietet eine Eventhouse-gesteuerte Abfrageerfahrung direkt auf Lakehouse- und Warehouse-Daten, ohne Datenduplizierung oder manuelle Synchronisierung.

Screenshot der geöffneten Schaltfläche

Wenn Sie den Eventhouse-Endpunkt aktivieren, werden ein Eventhouse und eine KQL-Datenbank automatisch als untergeordnete Elemente des Quell-Lakehouse oder Warehouse erstellt, wobei die Schemasynchronisierung im Hintergrund behandelt wird. Der Endpunkt spiegelt immer das aktuelle Schema der Quelldaten wider, wodurch der analysenahe Zugriff in Echtzeit ermöglicht wird.

Diese Integration macht Eventhouse zu einer natürlichen Erweiterung der Datenquelle und nicht zu einem separaten System, das Sie einrichten und verwalten müssen. Weitere Informationen zum Eventhouse-Endpunkt finden Sie unter Aktivieren des Eventhouse-Endpunkts für Lakehouse und Warehouse.