Unity Catalog 入门指南

Unity Catalog 是 Azure Databricks 中数据和 AI 的统一治理层。 它为各个工作区提供集中式访问控制、数据沿袭、审计和数据发现功能。 请参阅什么是 Unity Catalog?

2023 年 11 月 9 日之后创建的所有Azure Databricks工作区会自动启用 Unity 目录。 如果工作区已启用 Unity 目录,请按照设置教程进行操作。 如果工作区早于 Unity 目录或在创建时未启用,请按照升级指南操作。

指南 Description
Unity 目录设置指南 对于已启用 Unity Catalog 的工作区。 配置管理员角色、用户、计算、权限和目录。
升级到 Unity Catalog 对于尚未使用 Unity Catalog 的现有工作区。 启用 Unity 目录并迁移数据。

扩展 Unity 目录设置

设置工作区后,可以将更高级的治理功能应用于数据和 AI 工作流。

基于属性的访问控制

基于属性的访问控制(ABAC) 允许基于数据的属性以及访问数据的用户访问来定义动态的精细访问策略。 而不是按表管理权限表,而是编写自动强制实施行级别筛选和列级掩码的策略。 例如,您可以对特定区域之外的用户隐藏敏感列,或对非特权角色屏蔽 PII。

ABAC 列掩码在操作中

数据分类

数据分类 使用 AI 代理自动扫描目录并标记敏感数据,例如 PII、财务信息和凭据。 分类后,标记可以直接与 ABAC 策略集成,使你可以根据数据实际包含的内容应用治理控制,而不是按对象管理访问对象。

数据分类结果

数据质量监控

数据质量监控可对模式中所有表进行异常检测,并在表级别进行数据剖析。 异常检测基于历史数据模式自动监控数据新鲜度和完整性,无需手动配置即可发现问题。 数据分析会捕获一段时间内的统计分布,使你能够跟踪数据完整性并设置针对意外更改的警报。

数据质量监视仪表板

数据沿袭

数据世系可自动捕获数据如何在表、笔记本、作业和管道之间流动,精确到列级别。 可以跟踪任何列的源,查看下游资产所依赖的内容,并在进行架构更改之前了解架构更改的全部影响。

列级数据世系

使用 Unity AI 网关进行 AI 治理

Unity AI 网关 将 Unity 目录治理扩展到 AI。 它为 LLM 终结点、代理和 MCP 服务器提供企业治理,使你能够在统一 UI 中实现所有 AI 交互的访问控制、审核日志记录和可观测性。

有关 Unity 目录功能的完整概述,请参阅什么是 Unity 目录? 有关治理最佳做法,请参阅 Unity 目录最佳做法