你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Microsoft Fabric 和 Azure Databricks 为 SMB 构建新式数据平台体系结构

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Azure 数据工厂
Microsoft Purview

解决方案创意

本文介绍解决方案思路。 云架构师可以使用本指南来帮助可视化此体系结构的典型实现的主要组件。 使用本文作为一个起点,设计一个架构良好的解决方案,该解决方案符合工作负荷的特定要求。

本文介绍如何通过将 Azure Databricks 中的现有投资与完全托管的软件即服务(SaaS)数据平台(如 Microsoft Fabric)相结合,构建现代数据平台体系结构。 SaaS 数据平台是端到端数据分析解决方案,可与 Azure 机器学习、Foundry 工具、Power Platform、Microsoft Dynamics 365和其他Microsoft技术等工具集成。

简化的体系结构

展示适用于中小型企业的简化版现代数据平台架构的示意图。

下载此体系结构的 Visio 文件

Azure Databricks 和 Fabric 之间的互作性提供了一个可靠的解决方案,可最大程度地减少数据碎片,同时增强分析功能。

Fabric 提供一个名为 OneLake 的开放和管理的数据湖作为基础 SaaS 存储。 OneLake 和 Azure Databricks都使用 Delta Parquet 格式。 若要从 OneLake 访问 Azure Databricks 数据,可以在 Fabric 中镜像 Azure Databricks Unity Catalog,无需复制或移动数据即可集成数据。 借助此集成,您可以基于 OneLake 使用生成式 AI 增强 Azure Databricks 分析系统。

还可以在 Power BI 中对 OneLake 中的 Azure Databricks 数据使用 Direct Lake 模式。 Direct Lake 模式简化了服务层并提高了报表性能。 OneLake 支持 Azure Data Lake Storage 的 API,并存储 Delta Parquet 格式的所有表格数据。

因此,Azure Databricks 笔记本可以使用 OneLake 终结点访问存储的数据。 体验与通过 Fabric 仓库访问数据相同。 通过此集成,可以在不重塑数据的情况下使用Fabric或Azure Databricks。

建筑

展示面向中小企业的完整现代数据平台架构的示意图。

展示适用于中小企业的现代数据平台架构的示意图。 在步骤 1 中,加载和引入部分包括Azure 事件中心、Azure IoT 中心、Microsoft Dataverse和Azure 数据工厂。 一个箭头从数据工厂指向Data Lake Storage,它充当存储层,并包含以 Delta Lake 格式存储的数据。 在 Data Lake Storage 中,Delta Lake 将数据组织为由 Azure Databricks 处理的铜牌、银牌和金牌层级。 结构化和非结构化数据将移动到现有数据湖中。 在步骤 2 中,一个标注为 Microsoft Fabric Link 的箭头从 Dataverse 指向“处理和操作”部分。 一个标记为 Azure Synapse Link 的箭头从 Dataverse 指向 Data Lake Storage。 在步骤 3 中,有一个箭头从流式数据指向事件中心。 步骤 4 和 5 分别显示冷热路径。 它们脱离了 Lambda 架构。 冷路径指向存储区。 热路径指向进程和操作部分,其中包括Fabric Real-Time Intelligence、eventstream 和 eventhouse。 本部分扩展到协作和使用部分,包括Fabric仪表板和激活器。 在步骤 6 中,OneLake 和 Copilot 与 Fabric 数据代理及 Fabric 分析共用同一区域。 它涵盖了流程、操作、协作和使用部分。 一个标注为“镜像 Azure Databricks Unity Catalog”的双向箭头连接 Azure Databricks 和 OneLake 及 Copilot 部分。 在步骤 7 中,双面箭头连接Azure Databricks和Data Lake Storage。 在“协作和使用”部分中,数据科学和机器学习中的箭头指向“使用和服务”部分。 “使用和服务”部分包括Power Apps、Microsoft Dynamics CRM、Power BI、Azure Functions应用、逻辑应用和 Web 应用。 靠近底部的是“发现和治理”部分,其中包括 Microsoft Purview 和 Unity Catalog。 在该部分下方,平台部分包括Microsoft Entra ID、Microsoft 成本管理、Azure 密钥保管库、Azure Monitor、Microsoft Defender for Cloud、Azure DevOps和GitHub。

下载此体系结构的 Visio 文件

数据流

以下数据流对应于上图:

  1. 使用现有的Azure 数据工厂管道从源系统引入结构化和非结构化数据,并将其降落在现有数据湖中。

  2. 可以使用Microsoft Dynamics 365数据源通过 Azure Synapse Link 或 Microsoft Fabric Link 在扩充数据集上生成集中式 BI 仪表板。 将融合、已处理的数据带回 Microsoft Dynamics 365 和 Power BI,以便进一步分析。

  3. 流数据可以通过Azure 事件中心或Azure IoT 中心引入,具体取决于发送这些消息的协议。

  4. 在冷路径中,可以使用Azure Databricks将流数据引入集中式数据湖,以便进一步分析、存储和报告。 然后,此数据可以与其他数据源统一,以便进行批处理分析。

  5. 在热路径中,您可以通过 Microsoft Fabric 实时智能实时分析数据并创建实时仪表板。

  6. 可以使用现有的Azure Databricks笔记本来执行数据清理、统一和分析。 请考虑使用奖牌体系结构,例如:

    • 青铜,用于保存原始数据。
    • 包含已清理和筛选数据的 Silver。
    • Gold,用于存储对业务分析有用的聚合数据。
  7. 对于黄金数据或数据仓库,请继续使用 Azure Databricks SQL,或在 Fabric 中创建 Azure Databricks Unity 目录的镜像。 若要在 Fabric Lakehouse 上启用报告和分析,请使用 Direct Lake 或 DirectQuery 显式创建语义模型并生成Power BI仪表板以实现高性能。 有关详细信息,请参阅 Fabric 中的语义模型

以下工具用于治理、协作、安全性、性能和成本监视。

  • 发现和治理:

    • Microsoft Purview 提供跨数据资产的数据发现服务、敏感数据分类和治理见解。

    • Unity 目录跨 Azure Databricks 工作区提供集中式访问控制、审核、世系和数据发现功能。

  • 平台资源:

    • Microsoft Entra ID为Azure Databricks用户提供单一登录(SSO)。 Azure Databricks 支持使用 Microsoft Entra ID 进行自动用户预配,以便:

      • 创建新用户。
      • 向每个用户分配访问级别。
      • 删除用户并拒绝他们访问权限。
    • Microsoft成本管理为 Azure 工作负荷提供财务治理服务。

    • Azure 密钥保管库 管理机密、密钥和证书。

    • Azure Monitor 收集和分析 Azure 资源遥测数据。 此服务通过主动识别问题来最大程度地提高性能和可靠性。

    • Microsoft Defender for Cloud为Azure资源和工作负荷提供安全态势管理和威胁防护。

    • Azure DevOps提供持续集成和持续部署(CI/CD)和其他集成版本控制功能。

    • GitHub提供用于管理代码和部署管道的版本控制和协作开发功能。

组件

  • Data Lake Storage 是一种可缩放的数据存储服务,专为结构化和非结构化数据而设计。 在此体系结构中,Data Lake Storage 充当 Delta Lake 的基础基础结构。 它是原始和已处理数据的主存储层,可实现高效的数据引入、存储和检索分析和机器学习工作负载。

  • 数据工厂 是一种基于云的数据集成服务,可协调和自动执行数据移动和转换。 在此体系结构中,数据工厂创建、计划和协调跨各种数据存储和服务移动和转换数据的数据管道。

  • 事件中心 是一种实时数据引入服务,每秒可从任何源处理数百万个事件。 在此体系结构中,事件中心捕获和流式传输来自各种源的大量数据,以实现实时分析和事件驱动的处理。

  • IoT 中心是一项托管服务,可改善物联网(IoT)设备和云之间的安全性和可靠通信。 在此体系结构中,IoT 中心有助于引入、处理和分析来自 IoT 设备的遥测数据,以提供实时见解并启用远程监视。

  • Microsoft Dataverse 是一个可缩放的数据平台,组织可以使用该平台安全地存储和管理业务应用程序使用的数据。 在此体系结构中,它充当数据源,通过 Azure Synapse Link 或 Microsoft Fabric Link 馈送到分析管道中。

    • Azure Synapse Link 是一项数据集成功能,可将 Dynamics 应用程序与 Azure Synapse Analytics 或 Data Lake Storage 连接起来。 在此体系结构中,它将近实时的数据从 Dataverse 复制到 Data Lake Storage。

    • Microsoft Fabric Link 是一种数据集成功能,可将 Dynamics 应用程序连接到 Fabric。 在此体系结构中,它将数据从 Dataverse 近乎实时地复制到 Fabric 中。

  • Azure Databricks 是基于 Apache Spark 的分析平台,用于大数据处理、机器学习和数据工程。 在此体系结构中,它使用奖牌体系结构层执行数据清理、转换和分析。

    • Delta Lake 是一个开源存储层,它为 Spark 和大数据工作负载带来了原子性、一致性、隔离性和持久性(ACID)事务。 在此体系结构中,Delta Lake 增强了数据湖中的数据可靠性和性能。

    • Azure Databricks SQL 是一种基于 SQL 的分析服务,允许用户对 Azure Databricks 中存储的数据运行 SQL 查询。 在此体系结构中,Azure Databricks SQL 提供了一个功能强大的 SQL 接口来查询和分析数据,从而实现交互式分析。

    • AI 和机器学习 包括一系列技术和服务,这些技术和服务可实现机器学习模型的开发、部署和管理。 在此体系结构中,AI 和机器学习服务生成、训练和部署预测模型。 此功能支持数据驱动的决策。

    • Unity 目录是一种数据治理解决方案,可在Azure Databricks工作区中提供集中式访问控制、审核、世系和数据发现功能。 在此体系结构中,Unity 目录通过提供精细的访问控制、审核和数据世系跟踪来帮助确保数据治理和安全性。

  • Medallion Lakehouse 体系结构 是一种数据体系结构模式,将数据组织成铜层、银层和黄金层,以便高效数据处理和分析。 在此体系结构中,它使用 Data Lake Storage、Delta Lake 和 Azure Databricks 构建数据处理工作流,以支持可缩放的分析。

  • Fabric 是一个全面的数据平台,它集成了各种数据服务和工具,以提供无缝的数据管理和分析体验。 在此体系结构中,Fabric 连接并集成来自多个源的数据,从而在整个组织中实现全面的数据分析和见解。

    • Real-Time 智能 是一项数据处理功能,使组织能够实时引入、处理和分析数据。 实时智能处理来自各种源的流数据。 在此体系结构中,它提供实时见解,并根据数据模式自动执行操作。

    • OneLake 快捷方式在 OneLake 和其他数据源之间创建一个就地链接。 在此体系结构中,它们简化了数据访问和管理,并在整个组织中提供统一的数据视图。

    • Fabric Copilot是集成在 Fabric 各项工作负载中的 AI 助手。 它使用大型语言模型(LLM)来帮助用户使用自然语言与数据进行交互。 它简化了生成 SQL、DAX 和转换等任务,并创建报表或仪表板。 Copilot支持对话上下文、创建可视化效果并帮助生成分析管道。 它可帮助组织加快数据见解并优化工作流,而无需深入编码专业知识。

    • Fabric 数据代理是 Fabric 中一种基于 LLM 的智能服务,组织可通过单一界面使用该服务跨多个数据源(包括湖仓、仓库、语义模型、KQL 数据库和镜像数据库)查询和分析数据。 它支持复杂的多步骤查询,通过示例查询和代理或数据源说明应用自定义逻辑,并发布到智能 Microsoft 365 Copilot 副驾驶®或 Teams。 它为业务用户提供自然语言对企业数据的安全、受管理的访问权限。

  • Power BI是一种业务分析服务,提供交互式可视化和商业智能(BI)功能。 在此体系结构中,Power BI通过使用 Direct Lake 模式来可视化来自Fabric和Azure Databricks的数据以提高性能。

  • Microsoft Purview 是一种统一的数据治理服务,可帮助组织跨各种源管理和管理其数据。 在此体系结构中,它会对数据进行编录、跟踪世系,并在整个数据资产中强制实施合规性。 可以将 Unity 目录集成到 Purview 中,以便从 Purview 访问 Unity 目录元数据。

  • Microsoft Entra ID 是一种基于云的标识和访问管理解决方案,可帮助确保安全登录和访问 Microsoft 365、Azure 和其他 SaaS 应用程序等资源。 在此体系结构中,Microsoft Entra ID 为 Azure 资源提供安全标识和访问管理。 此功能支持安全登录、管理用户标识,并帮助确保对数据和资源的授权访问。

  • Cost Management 是一套 FinOps 工具,组织可用于分析、监视和优化Microsoft Cloud成本。 在此体系结构中,这些工具针对 Azure 资源提供财务治理。

  • 密钥保管库 是一种云服务,用于存储和管理机密,例如 API 密钥、密码、证书和加密密钥。 在此体系结构中,Azure Databricks 可以从 密钥保管库 检索机密,以进行身份验证和访问 Data Lake Storage,这可确保安全集成。

  • Azure Monitor 是一种监视服务,可为应用程序、基础结构和网络提供全堆栈可观测性。 Azure Monitor 使用户能够收集、分析和处理来自其 Azure 和本地环境的遥测数据。 在此体系结构中,Azure Monitor 通过主动识别问题来确保性能和可靠性。

  • Defender for Cloud 是云原生应用程序保护平台,可在Azure、混合和多云环境中提供安全态势管理和威胁防护。 在此体系结构中,Defender for Cloud通过识别漏洞、检测威胁以及跨Azure资源提供安全建议来保护数据平台和工作负载。

  • Azure DevOps 是一组支持协作文化和简化流程的开发工具。 这些工具使开发人员、项目经理和参与者能够更高效地开发软件。 Azure DevOps 提供集成功能,例如 Azure Boards、Azure Repos、Azure Pipelines、Azure 测试计划和 Azure Artifacts。 可以通过 Web 浏览器或集成开发环境客户端访问这些功能。 在此体系结构中,Azure DevOps 支持数据管道和笔记本的自动部署和版本控制。

  • GitHub 是一种基于云的 Git 存储库托管服务,可简化开发人员的版本控制和协作。 个人和团队可以存储和管理其代码、跟踪更改以及协作处理项目。 在此体系结构中,GitHub与Azure DevOps集成,以便在数据工厂、Azure Databricks和Fabric的开发工作流和部署管道中强制实施自动化和合规性。

替代方案

此体系结构中的服务替代项

  • 批量摄取

  • Microsoft Dynamics 365 引入

  • 流式数据引入

    • Azure IoT与事件中心之间的决策取决于流式处理数据的源、是否需要克隆和与报告设备的双向通信以及所需的协议。 有关详细信息,请参阅 比较 IoT 中心和事件中心
  • Lakehouse

    • Fabric Lakehouse 是一个统一的数据体系结构平台,用于以开放格式管理和分析结构化和非结构化数据,主要使用 Delta Parquet 文件。 它支持两种存储类型。 这些存储类型是托管表,例如 CSV、Parquet 或 Delta 以及非托管文件。 自动识别托管表。 非托管文件需要显式创建表。 该平台通过 Spark 或 SQL 终结点启用数据转换,并与其他Fabric组件集成。 此集成允许数据共享而不重复。 此概念与分析工作负荷中使用的常见奖牌体系结构保持一致。 有关详细信息,请参阅 Fabric 中的 Lakehouse
  • 实时分析

    • Azure Databricks

      • 如果有现有的Azure Databricks解决方案,可能需要继续使用 Spark 结构化流式处理进行实时分析。 有关更多信息,请参阅Azure Databricks 上的流式处理
    • 织物

      • 如果以前使用其他Azure服务进行实时分析或没有现有的实时分析解决方案,请参阅 实时智能与Azure流式处理解决方案

      • Fabric结构化流使用 Spark 结构化流处理和引入实时数据流作为连续追加表。 结构化流支持各种文件源,例如 CSV、JSON、ORC、Parquet 和 Kafka 和事件中心等消息传送服务。 此方法可确保可缩放和容错流处理,从而优化高吞吐量生产环境。 有关详细信息,请参阅 使用 Spark 将数据流式传输到 Lakehouse

  • 数据工程

  • 数据仓库或黄金层

    • 可以使用 Fabric 或 Azure Databricks 创建基于 SQL 的仓库或黄金层。 有关如何在Fabric中选择数据仓库或黄金层存储解决方案的决策指南,请参阅 选择数据存储。 有关 Azure Databricks 中的 SQL 仓库类型的详细信息,请参阅 SQL 仓库类型
  • 数据科学

    • 将 Fabric 或 Azure Databricks 用于数据科学功能。 有关 Fabric Data Science 的详细信息,请参阅 Fabric 中的数据科学。 有关Azure Databricks产品/服务的详细信息,请参阅 AI 和机器学习Azure Databricks

    • Fabric 数据科学不同于机器学习。 机器学习提供了一个全面的解决方案,用于管理工作流和部署机器学习模型。 Fabric 数据科学专为分析和报告情景定制。

  • Power BI

方案详细信息

拥有现有 Azure Databricks 环境,并可选采用湖仓架构的中小企业,可从这种模式中受益。 它们当前使用Azure提取、转换、加载(ETL)工具(如数据工厂),并在Power BI中提供报表。 但是,它们可能还具有多个数据源,这些数据源在同一数据湖上使用不同的专有数据格式,这会导致数据重复和供应商锁定问题。 这种情况可能会使数据管理复杂化,并增加对特定供应商的依赖性。 他们可能还需要最新和近实时的报告以支持决策,并希望在其整个环境中采用 AI 工具。

Fabric 是一个开放、统一且受治理的 SaaS 基础,可用于:

  • 集中 OneLake 中的数据,以在单个位置存储、管理和分析数据,而无需供应商锁定问题。

  • 通过Microsoft 365 个应用的集成更快地进行创新。

  • 通过 Power BI Direct Lake 模式的优势快速获取见解。

  • 在 Fabric 的各种体验中借助 Copilot 获益。

  • 通过在单个基础上开发 AI 模型来加速分析。

  • 在不移动的情况下使数据保持原位,从而减少数据科学家需要提供价值的时间。

贡献者

Microsoft维护本文。 以下贡献者撰写了本文。

主要作者:

若要查看非公开的领英个人资料,请登录领英。

后续步骤