Installationshandbuch für Unity-Katalog

Diese Seite behandelt die anfängliche Unity-Katalogeinrichtung für Arbeitsbereichsadministratoren in einem neuen Azure Databricks Arbeitsbereich, einschließlich:

  • Bestätigen, dass Ihr Arbeitsbereich für den Unity-Katalog aktiviert ist
  • Verwalten von Zugriff auf den Arbeitsbereich und Identitäten
  • Erstellen von Unity Catalog-kompatiblen Computeressourcen
  • Erstellen eines Katalogs und Schemas für Ihre Daten
  • Benutzern die benötigten Berechtigungen gewähren

Bevor Sie anfangen

Bevor Sie beginnen, machen Sie sich mit den folgenden Unity-Katalogkonzepten vertraut:

  • Metastore: Der Unity-Katalogcontainer der obersten Ebene, der auf eine einzelne Cloudregion ausgerichtet ist. Es enthält alle sicherungsfähigen Objekte: Kataloge, Speicheranmeldeinformationen, externe Speicherorte und vieles mehr. Siehe Metastore.
  • Katalog: Das Datencontainerobjekt der höchsten Ebene innerhalb eines Metastores. Kataloge enthalten Schemas, die wiederum Tabellen, Ansichten, Volumes und Funktionen enthalten. Siehe Katalog.
  • Administratorrollen: Der Unity-Katalog verfügt über drei Hauptadministratorrollen, Kontoadministrator, Arbeitsbereichsadministrator und Metastore-Administrator, die jeweils einen anderen Umfang und eine andere Verantwortung haben. Siehe Administratorrechte im Unity Catalog.

Darüber hinaus benötigen Sie Folgendes:

Schritt 1: Vergewissern Sie sich, dass Ihr Arbeitsbereich für den Unity-Katalog aktiviert ist

Verwenden Sie eine der folgenden Methoden, um zu bestätigen, dass Ihr Arbeitsbereich einem Unity-Katalog-Metaspeicher zugeordnet ist.

Verwenden der Kontokonsole

Für diese Methode sind Kontoadministratorrechte erforderlich.

  1. Melden Sie sich als Azure Databricks-Kontoadministrator*in bei der Kontokonsole an.
  2. Klicken Sie auf das Symbol Arbeitsbereiche.
  3. Suchen Sie Ihren Arbeitsbereich, und überprüfen Sie die Spalte Metastore. Wenn ein Metastorename vorhanden ist, ist Ihr Arbeitsbereich für Unity-Katalog aktiviert.

Ausführen einer SQL-Abfrage

Diese Methode erfordert keine Administratorrechte, erfordert aber eine Unity Catalog-kompatible Computeressource. Schritt 3: Erstellen Sie mit Unity Catalog kompatible Rechenressourcen führt Sie durch das Erstellen von mit Unity Catalog kompatiblen Rechenressourcen.

Führen Sie den folgenden Befehl im SQL-Abfrage-Editor oder einem Notizbuch aus, das an eine Computeressource angefügt ist:

SELECT CURRENT_METASTORE();

Wenn die Abfrage eine Metastore-ID zurückgibt, ist Ihr Arbeitsbereich für Unity-Katalog aktiviert.

Aktuelle Metaspeicherausgabe

Wenn Ihr Arbeitsbereich für den Unity-Katalog nicht aktiviert ist, lesen Sie Upgrade eines Azure Databricks Arbeitsbereichs zum Unity-Katalog.

Schritt 2: Verwalten des Arbeitsbereichzugriffs und der Identitäten

Arbeitsbereichsadministratoren können Benutzer und Gruppen hinzufügen, Administratorrollen zuweisen und Dienstprinzipale verwalten.

Benutzer hinzufügen

Fügen Sie einzelne Benutzer hinzu, die Zugriff auf diesen Arbeitsbereich benötigen. Anweisungen finden Sie unter Verwalten von Benutzern.

Organisieren von Benutzern in Gruppen

Databricks empfiehlt die Verwaltung des Zugriffs über Gruppen anstelle einzelner Benutzer. Die Gewährung von Berechtigungen für eine Gruppe wendet sie auf alle Mitglieder an, wodurch der Verwaltungsaufwand reduziert wird, wenn Ihr Team wächst.

  • Wenn Ihre Organisation bereits Gruppen in einem Identitätsanbieter (IdP) hat: Synchronisieren Sie sie mit Azure Databricks mithilfe der automatischen Identitätsverwaltung oder SCIM-Bereitstellung, damit die Gruppenmitgliedschaft automatisch synchronisiert bleibt. Siehe automatische Identitätsverwaltung.
  • Wenn Sie noch keine Gruppen haben: Erstellen Sie als Arbeitsbereichsadministrator Gruppen auf Kontoebene, indem Sie zu "Identitätseinstellungen">navigieren undneben >" auf "Verwalten" zugreifen. Weitere Informationen finden Sie unter Verwalten von Gruppen.

Zuweisen von Administratorrollen

Arbeitsbereichsadministratoren können die meisten täglichen Administrativen Aufgaben ausführen: Hinzufügen und Entfernen von Benutzern, Verwalten von Berechnungen, Konfigurieren von Arbeitsbereichseinstellungen und Gewähren des Zugriffs auf Daten. Diese Rolle ist für Mitglieder einer zentralen Datenplattform oder eines IT-Teams geeignet, die für die Aufrechterhaltung des Arbeitsbereichs verantwortlich sind. Seien Sie selektiv darüber, wer diese Rolle erhält. Arbeitsbereichsadministratoren haben umfassenden Zugriff auf Arbeitsbereichsressourcen und -einstellungen.

In der Regel ist die Administratorrolle des Arbeitsbereichs die einzige Administratorrolle, die Sie zuweisen müssen. Optional können Sie Metastore-Administratoren für spezielle Anwendungsfälle zuweisen. Sie können diese Rolle beispielsweise einem dedizierten Data Governance-Team oder einer kleinen Gruppe von leitenden Plattformtechnikern zuweisen, wenn Sie folgendes benötigen:

  • Übertragen Sie die Katalogerstellung an Administratoren, die keine Arbeitsbereichsadministratoren sind.
  • Verwalten Sie das Init-Skript und die JAR-Zulassungsliste.
  • Empfangen Sie freigegebene Daten über Delta Sharing.
  • Objektinhaberschaft übertragen, wenn ein Teammitglied das Team verlässt.

Anweisungen zum Zuweisen dieser Rollen finden Sie unter Administratorrechte im Unity-Katalog.

Schritt 3: Erstellen Sie Unity-Catalog-konforme Compute-Ressourcen

Um Unity Catalog-Workloads auszuführen, müssen Computeressourcen die Sicherheitsanforderungen des Unity-Katalogs erfüllen. Die folgende Tabelle zeigt, welche Computetypen kompatibel sind:

Computetyp UC-kompatibel
SQL Warehouse Yes
Serverlose Berechnung (Notizbücher, Aufträge, Pipelines) Yes
Cluster – Einzelbenutzerzugriffsmodus Yes
Cluster — Modus für gemeinsamen Zugriff Yes
Cluster — gemeinsamer Zugriffsmodus ohne Isolation No

So erstellen Sie UC-konforme Rechenkapazität:

Als Arbeitsbereichsadministrator können Sie die Clustererstellung nur auf Administratoren beschränken oder Clusterrichtlinien verwenden, um Benutzern das Erstellen eigener Unity-Katalog-kompatibler Cluster zu ermöglichen. Siehe Compute-Berechtigungen und Erstellen und Verwalten von Compute-Richtlinien.

Schritt 4: Erstellen von Katalogen und Schemas

Kataloge sind die primäre Einheit der Datenisolation in Unity Catalog. Alle Schemas, Tabellen, Volumes, Ansichten und Funktionen befinden sich in Katalogen.

Wann ein neuer Katalog erstellt werden soll

Neue Arbeitsbereiche werden automatisch mit einem Arbeitsbereichkatalog bereitgestellt– standardmäßig wird dieser Katalog nach Ihrem Arbeitsbereich benannt. Klicken Sie auf das Datensymbol, um zu überprüfen, ob sie über einen Arbeitsbereichskatalog verfügen.Katalog in der Randleiste, und suchen Sie nach einem Katalog, der Ihrem Arbeitsbereichsnamen entsprechen. Falls vorhanden, müssen Sie möglicherweise nicht sofort zusätzliche Kataloge erstellen.

Erwägen Sie im Laufe der Zeit, mit zunehmender Nutzung neue Kataloge zu erstellen, die nach logischen Abgrenzungen organisiert sind, z. B.:

  • Teams oder Geschäftseinheiten: separate Kataloge für Engineering, Finanzen und Marketing
  • Umgebungen: separate dev, staging und prod Kataloge, um Entwicklungs- von Produktionsdaten zu trennen
  • Projekte: ein dedizierter Katalog pro Hauptdatenprodukt oder Initiative

Wenn die Datengrenzen Ihrer Organisation bereits gut definiert sind, können Sie jetzt Kataloge erstellen.

Einen Katalog erstellen

Führen Sie zum Erstellen eines Katalogs die folgende SQL-Anweisung aus.

CREATE CATALOG IF NOT EXISTS <catalog-name>;

Note

Verwaltete Daten in diesem Katalog werden im standardverwalteten Speicherort des Metastores gespeichert. Wenn Sie einen anderen Speicherort verwenden möchten, geben Sie MANAGED LOCATION an. Siehe Verbinden mit Cloudobjektspeicher mithilfe des Unity-Katalogs.

Erstellen Sie dann ein Schema, um Ihre Tabellen und andere Datenobjekte zu organisieren:

CREATE SCHEMA IF NOT EXISTS <catalog-name>.<schema-name>;

Ausführliche Anweisungen und anleitungen zur Verwendung des Katalog-Explorers finden Sie unter Erstellen von Katalogen und Erstellen von Schemas.

Schritt 5: Erteilen von Berechtigungen für Benutzer

Im Unity-Katalog haben Benutzer standardmäßig keinen Zugriff auf Daten. Arbeitsbereichsadministratoren können Berechtigungen für sicherungsfähige Objekte im gesamten Arbeitsbereich gewähren. Databricks empfiehlt, Gruppen statt einzelnen Benutzern Berechtigungen zu gewähren. Dadurch wird der Zugriff einfacher verwaltet, wenn Ihr Team wächst.

Aktivieren der Datenermittlung

Azure Databricks empfiehlt, der Gruppe All account users die Berechtigung BROWSE für alle Kataloge zu gewähren. BROWSE ermöglicht Benutzern zu sehen, dass Objekte vorhanden sind und ihre Metadaten im Katalog-Explorer anzeigen können, ohne zugriff auf die zugrunde liegenden Daten zu gewähren. Auf diese Weise können Ihre Benutzer Daten ermitteln und den Zugriff anfordern, ohne dass Administratoren Berechtigungen vorab erteilen müssen.

GRANT BROWSE ON CATALOG <catalog-name> TO `account users`;

Gewähren des Datenzugriffs

Um auf Daten im Unity-Katalog zuzugreifen, benötigen Benutzer in der Regel die spezifischen Berechtigungen für den Vorgang (z SELECT . B. zum Lesen einer Tabelle) und die entsprechenden Nutzungsberechtigungen (z USE CATALOG . B. im übergeordneten Katalog und USE SCHEMA im übergeordneten Schema). Siehe Unity Catalog-Berechtigungsmodellkonzepte.

Gewähren Sie diese Berechtigungen nur den Benutzern und Gruppen, die Zugriff auf bestimmte Kataloge und Schemas benötigen. Wenn Sie beispielsweise schreibgeschützten Zugriff auf ein Schema gewähren möchten, verwenden Sie die folgende SQL-Datei:

GRANT USE CATALOG ON CATALOG <catalog-name> TO `<group-name>`;
GRANT USE SCHEMA ON SCHEMA <catalog-name>.<schema-name> TO `<group-name>`;
GRANT SELECT ON SCHEMA <catalog-name>.<schema-name> TO `<group-name>`;

Für Lese-/Schreibzugriff:

GRANT USE CATALOG ON CATALOG <catalog-name> TO `<group-name>`;
GRANT USE SCHEMA ON SCHEMA <catalog-name>.<schema-name> TO `<group-name>`;
GRANT SELECT, MODIFY ON SCHEMA <catalog-name>.<schema-name> TO `<group-name>`;

Zugriffsmuster ändern sich im Laufe der Zeit. Verwenden Sie die folgenden Seiten als Referenz zum Verwalten von Berechtigungen im Unity-Katalog:

Prüfliste für das Setup

Wenn Sie alle fünf Schritte abgeschlossen haben, ist Unity Catalog in Ihrem Arbeitsbereich eingerichtet, und Ihre Benutzer können mit der Arbeit mit Daten beginnen. Verwenden Sie die folgende Checkliste, um zu bestätigen, dass alles vorhanden ist:

Nächste Schritte

Mit der Einrichtung des Unity-Katalogs können Sie mit der Anwendung erweiterter Governance-Funktionen für Ihren Arbeitsbereich beginnen.

Attributbasierte Zugriffssteuerung

Mithilfe der attributbasierten Zugriffssteuerung (Access Control, ABAC) können Sie dynamische, differenzierte Zugriffsrichtlinien basierend auf Attributen der Daten und dem Benutzer definieren, auf die zugegriffen wird. Anstatt die Berechtigungstabelle nach Tabelle zu verwalten, schreiben Sie Richtlinien, die automatisch das Filtern auf Zeilenebene und die Maskierung auf Spaltenebene erzwingen. Sie können z. B. vertrauliche Spalten von Benutzern außerhalb einer bestimmten Region ausblenden oder PII für nicht privilegierte Rollen maskieren.

ABAC-Spaltenmaskierung in der Praxis

Datenklassifizierung

Die Datenklassifizierung verwendet einen KI-Agent, um Ihren Katalog automatisch zu scannen und vertrauliche Daten wie PII, Finanzinformationen und Anmeldeinformationen zu markieren. Nach der Klassifizierung können Tags direkt in ABAC-Richtlinien integriert werden, sodass Sie Governance-Kontrollen auf Grundlage dessen anwenden können, was die Daten tatsächlich enthalten, anstatt den Zugriff Objekt für Objekt zu verwalten.

Ergebnisse der Datenklassifizierung

Datenqualitätsüberwachung

Die Datenqualitätsüberwachung ermöglicht die Anomalieerkennung in allen Tabellen in einem Schema und einer Datenprofilerstellung auf Tabellenebene. Anomalieerkennung überwacht automatisch Aktualität und Vollständigkeit mithilfe von historischen Datenmustern, Erkennen von Problemen ohne manuelle Konfiguration. Die Datenprofilerstellung erfasst statistische Verteilungen im Laufe der Zeit, sodass Sie die Datenintegrität nachverfolgen und Warnungen für unerwartete Änderungen festlegen können.

Dashboard zur Datenqualitätsüberwachung

KI-Governance mit Unity AI Gateway

Unity AI Gateway erweitert Unity Catalog Governance auf KI. Es bietet Unternehmensgovernance für LLM-Endpunkte, Agents und MCP-Server, sodass Sie Zugriffssteuerung, Überwachungsprotokollierung und Observierbarkeit für alle KI-Interaktionen in einer einheitlichen Benutzeroberfläche implementieren können.