探索分析数据处理

已完成

分析数据处理通常使用存储大量历史数据或业务指标的只读(或以只读为主)系统。 分析可以基于给定时间点的数据快照或一系列快照。

分析处理系统的具体细节可能因解决方案而异,但企业级分析的通用体系结构如下所示:

显示分析数据库体系结构的示意图,其中包含下面所述的编号元素。

  1. 操作数据会经过提取、转换和加载(ETL)后导入数据湖进行分析;或者先提取并加载,再在之后进行转换,这种模式称为 ELT,在现代湖仓中很常见。

  2. 数据会加载到由多个表组成的模式中——通常是加载到 数据湖仓 中,在数据湖中的文件之上提供表格抽象;或者加载到配备完备关系型 SQL 引擎的 数据仓库 中。

  3. 数据仓库中的数据可以聚合并加载到联机分析处理(OLAP)模型中,现在更常见的称为 语义模型 (在历史上称为 多维数据集)。 来自事实表的聚合数值(度量值)是按维度表中各维度的交叉组合计算得出的。 例如,销售额可以按日期、客户和产品合计。 Power BI语义模型是你将遇到的最常见示例。

  4. 可查询 Data Lake、数据仓库和分析模型中的数据,以生成报表、可视化效果和仪表板。

数据湖在大规模数据分析处理场景中很常见,在该场景中,必须收集和分析大量基于文件的数据。

数据仓库 是一种将数据存储在针对读取操作进行优化的关系架构中(主要是用于支持报告和数据可视化的查询)的既定方法。

Data Lakehouses 是一项最新创新,它将 Data Lake 的灵活且可缩放的存储与数据仓库的关系查询语义相结合。 表架构可能需要对 OLTP 数据源中的数据进行一些非规范化(引入一些重复以更快地执行查询)。

OLAP 模型(或 语义模型)是针对分析工作负荷优化的聚合数据存储类型。 数据聚合跨不同级别的维度,使你能够 向上/向下钻取 以查看多个分层级别的聚合;例如,按区域、城市或单个地址查找总销售额。 由于数据已预先聚合,因此可快速运行查询以返回其中包含的汇总结果。

不同类型的用户可以在整个体系结构的不同阶段执行数据分析工作。 例如:

  • 数据科学家可以直接使用 Data Lake 中的数据文件来探索和建模数据。
  • 数据分析师可以直接在数据仓库中查询表,以生成复杂的报表和可视化效果。
  • 业务用户可能会以报表或仪表板的形式在分析模型中使用预先聚合的数据。

新式分析平台

Azure提供了多个托管服务,涵盖完整的分析管道,从引入原始数据到交互式报表。 两个“一对一”平台在单个工作区中将其中大部分功能组合在一起。 Microsoft FabricAzure Databricks 是这两个平台;第三个服务(Microsoft Purview)侧重于所有源的数据治理。 你还不需要熟悉这些服务中的任何一项, 以下说明让你大致了解每个服务的作用。

Microsoft Fabric是一种统一的软件即服务(SaaS)分析平台,将存储、数据工程、数据仓库和报告功能汇集在一个工作区中。 Azure Databricks是一个云分析平台,它专为大规模数据工程和数据科学而构建,使用 Delta Lake - Parquet 以及支持版本管理和 ACID 事务的事务日志作为其标准存储格式。 Microsoft Purview提供统一的数据安全性、治理和合规性,帮助你发现、分类、保护和管理所有数据源中的数据。

Diagram 显示新式分析平台Microsoft Fabric、Azure Databricks和Microsoft Purview.

使用奖牌体系结构组织数据

在湖仓中组织数据的一种常见模式是 奖章架构,它使用三层结构:

  • 青铜:从源系统引入的原始数据 as-is,不应用任何转换,保留原始记录以供重新处理。
  • Silver:清理并符合数据,删除重复项并标准化数据类型。
  • Gold:针对特定报表和分析用例进行建模的、经过聚合且可直接用于业务的数据。

显示奖章架构的图示。

团队采用这种模式,是因为它能在每个层级建立清晰的质量边界,而且如果需求发生变化,你始终可以从原始 Bronze 层记录中重新处理数据。

Fabric 和 Databricks 都提供 Copilot 体验,让用户能够使用自然语言探索数据。