Microsoft Fabric将Microsoft的分析工具汇集到单个 SaaS 平台中。 它为工作流业务流程、数据移动、复制和大规模转换提供了强大的功能。 Fabric数据工厂提供了一个 SaaS 环境,它通过易于使用的改进和额外的功能在 Azure 数据工厂 (ADF) PaaS 的基础上构建,使Fabric数据工厂成为现有数据集成解决方案的完美现代化。
本指南介绍迁移策略、注意事项和方法,帮助你从Azure 数据工厂迁移到Fabric数据工厂。
为何要迁移?
从 ADF 和 Synapse 管道迁移到 Fabric 数据工厂不仅仅是一种直接迁移:它有机会简化治理、标准化模式,并使用Fabric数据工厂的高级功能来改进数据集成策略。
Fabric提供了许多新功能,包括:
- 用于消息路由的集成管道活动,如电子邮件和 Teams
- 没有外部 Git 依赖项的内置 CI/CD(部署管道)
- 与 OneLake、 Warehouse 和 Lakehouse 无缝工作区集成,实现统一分析
- 简化的 语义数据模型更新,可以满足自助服务和企业数据的需求。
- 具有 Copilot 的内置 AI 功能,可帮助你创建和管理管道
有关详细比较,请参阅Azure 数据工厂和 Fabric 数据工厂比较指南。
关键体系结构差异
在从Azure 数据工厂迁移到Fabric数据工厂之前,请考虑以下关键的体系结构差异,这些差异往往对迁移规划产生最大的影响:
| 类别 | Azure 数据工厂 | Fabric数据工厂 | 迁移影响 |
|---|---|---|---|
| 自定义代码 | 自定义活动 | Azure Batch 活动 | 活动名称不同,但支持相同的功能。 |
| 数据流 | 映射数据流(基于 Spark) | Dataflow Gen2(Power Query 引擎),支持快速复制和多目标。 | 不同的转换引擎和功能。 有关详细信息,请查看我们的 映射数据流用户指南。 |
| 数据集 | 单独的可重用数据集对象 | 属性在活动中内联定义 | 从 ADF 转换为Fabric时,每个活动都包含“dataset”信息。 |
| 动态连接 | 链接服务的属性可以通过参数动态设置 | 连接属性不支持动态属性,但管道活动可以将动态内容用于连接对象 | 对于依赖于参数化连接的基于元数据驱动体系结构的解决方案,请参数化Fabric中的连接对象。 |
| 全局参数 | 全局参数 | Fabric 变量库 | 不同的实现模式和数据类型,但我们提供了迁移指南。 |
| HDInsight 活动 | 五个单独的活动(Hive、Pig、MapReduce、Spark、流式处理) | 单个 HDInsight 活动 | 转换时只需要一个活动类型,但支持所有功能。 |
| 身份 | 托管身份 | Fabric工作区标识 | 不同的身份模型,需要进行一些规划才能迁移。 |
| 密钥保管库 密钥保管库 | 与所有身份验证类型的成熟集成 | 通过Fabric 密钥保管库 引用进行有限集成 | 将当前支持的密钥保管库源和身份验证与现有配置进行比较。 |
| 管道执行 | 执行管道活动 | 使用 FabricDataPipeline 连接类型调用管道活动 | 转换时,活动名称和连接要求会发生变化。 |
| 计划 | 一个触发器管理多个管道,或每个管道具有多个集中管理的触发器。 | 每个管道一个计划或每个管道多个计划,没有计划重用或中心枢纽 | Fabric当前需要为每个管道进行计划管理。 |
迁移路径
迁移路径取决于 ADF 资产及其功能对等。 选项包括:
- Azure 数据工厂中的 Fabric 项目以确保持续性。 - Fabric中现有Azure 数据工厂实例的实时视图,可实现逐步迁移和测试。 在使用转换工具或重新格式化之前,这也是一个很好的第一步。
- 使用 Azure 数据工厂 管道的内置升级体验 - 在 Azure 数据工厂 中直接评估管道准备情况,查看兼容性结果,并将支持的管道迁移到 Fabric 工作区,使用引导式用户体验。
- 复杂环境的手动迁移 - 在Fabric中重建管道,以利用新功能并优化性能。 对于具有低奇偶校验或自定义逻辑的管道来说,这是必需的,但也是实现体系结构现代化的机会。
在您的Fabric工作区中的Azure 数据工厂项目
将现有 ADF 添加到Fabric工作区可让你在增量迁移时立即获得可见性和治理。 它非常适合发现、所有权分配和并排测试,因为团队可以查看管道、在Fabric工作区下组织这些管道,并根据每个域计划切换。 使用Azure 数据工厂项对存在的内容进行编录,首先确定最高价值/最低风险管道的优先级,并建立转换脚本和合作伙伴工具可以一致遵循的约定(命名、文件夹、连接重用)。
在Fabric中进行装载是通过Azure 数据工厂项目类型实现的:将您的Azure 数据工厂引入到Fabric。
使用内置迁移体验升级Azure 数据工厂管道
Fabric提供了内置的评估优先升级体验,让你无需脚本或自定义工具即可直接通过Azure 数据工厂和Fabric用户体验评估和迁移Azure 数据工厂管道。 此体验可帮助你:
- 直接在Azure 数据工厂中评估管道和活动准备情况。
- 了解迁移之前的兼容性差距。
- 将 Azure 数据工厂 挂载到 Fabric 工作区以进行并排审查。
- 以增量方式将支持的管道从装载的数据工厂迁移到Fabric。
- 为需要更新或即将更新的项目计划修复或重新设计。
每个管道和活动都明确分类(就绪、需要评审、即将推出或不兼容),帮助团队在切换生产工作负荷之前有意规划迁移并验证结果。 此方法非常适合需要引导式、低风险和增量迁移路径的客户,同时保持对不支持的功能和后续步骤的可见性。 有关分步指南,请参阅 将Azure 数据工厂管道更新为 Fabric
手动迁移
手动迁移对于一致性较低的复杂管道是必要的,同时这也是一个更新您的架构并采用Fabric集成功能的机会。 此路径需要更前期的规划和开发,但可以在可维护性、性能和成本方面产生长期优势。
若要有效迁移,请执行以下步骤:
- 评估和清单:对所有 ADF 资产进行目录,包括管道、数据集、链接服务和集成运行时。 确定依赖项和使用模式。
- 识别重复项和未使用项:清理 ADF 中未使用或冗余的项目以简化迁移和数据集成环境。
- 识别差距:使用 迁移评估工具并查看 连接器匹配和 活动匹配 以确定 ADF 管道和 Fabric 管道之间的差距,并规划替代方案。
- 查看新功能:使用我们的数据迁移决策指南和数据集成决策指南,确定哪些Fabric工具最适合您的需求。
- 计划:查看迁移最佳实践,了解每个项目的注意事项,并获取充分利用Fabric增强功能的指导方针。
- 如果在 ADF 中使用全局参数,请计划将其迁移到Fabric变量库。 详细步骤请参阅 将 ADF 全局参数转换为 Fabric 变量库。
- ADF 转换:考虑将 Azure 数据工厂 项添加到 Microsoft Fabric 中,作为迁移的第一步,这样可以在单个平台上实现逐步过渡。
- 确定优先级:根据业务影响、复杂性和迁移的难易程度对管道进行排名。
- 尽可能实现自动化:在迁移生产工作负荷之前,使用内置的升级体验来逐步评估、迁移和验证管道。 有关详细信息,请参阅 升级工具。
- 考虑工具:使用这些工具使娱乐更加轻松:
-
手动迁移:对于不被其他迁移方法支持的场景,请在Fabric中重新构建它们。
- 重新创建连接:在 Fabric 中设置 Connections以替换 ADF 中的链接服务
- 重新创建活动:在管道中设置活动,将不支持的活动替换为Fabric替代选项,或者使用调用管道活动
计划并设置触发器 :在 Fabric 以匹配 ADF 计划
- 全面测试:根据预期的输出、性能基准和符合性要求验证迁移的管道。
示例迁移方案
根据用例,从 ADF 迁移到Fabric可能涉及不同的策略。 本部分概述了有助于有效规划的常见迁移路径和注意事项。
方案 1:ADF 管道和数据流
通过将管道和数据流移动到Fabric来现代化 ETL 环境。 规划以下元素:
- 将已连接的服务重新创建为连接
- 将全局参数重新创建为变量库
- 在管道活动中直接设置数据集属性
- 将 SHIR(自承载集成运行时)替换为 OPDG(本地数据网关),并将 VNet IR 替换为虚拟网络数据网关。
- 使用 Fabric 的替代项或调用管道活动来重新构建 不支持的 ADF 活动。 不支持的活动包括:
- Data Lake Analytics(U-SQL),已弃用的Azure服务
- 验证活动可以使用 Get Metadata、管道循环和 If 活动来重建。
- Power Query 完全集成至 Fabric 中,作为数据流,在其中可重复使用 M 代码。
- 笔记本、Jar 和 Python 活动可以在 Fabric 中替换为 Databricks 活动
- 在 Fabric 中,Hive、Pig、MapReduce、Spark 和流式处理活动可以替换为 HDInsight 活动。
例如,下面是 ADF 数据集配置页,其中包含其文件路径和压缩设置:
下面是 Fabric 中数据工厂的复制活动,其中压缩和文件路径内置于活动:
方案 2:具有 CDC、SSIS 和 Airflow 的 ADF
重新创建 CDC 作为 复制任务 项。 对于 Airflow,请将 DAG 复制到 Fabric 的 Apache Airflow 产品/服务。 使用 ADF 管道执行 SSIS 包,并从Fabric调用它们。
方案 3:使用内置迁移体验进行管道升级
通过此引导式评估优先体验,可以评估就绪情况、识别兼容性差距,并将支持的管道以增量方式迁移到Fabric工作区(无脚本)。 有关详细信息,请参阅 将Azure 数据工厂管道更新为 Fabric。
方案 4:Fabric 工作区中的 ADF 项
可以将整个 ADF 工厂作为本机项添加到 Fabric 工作区中。 这样就可以在同一接口中管理 ADF 工厂以及 Fabric 制品。 ADF UI 仍然完全可访问,允许你直接从Fabric工作区监视、管理和编辑 ADF 工厂项。 但是,管道、活动和集成运行时的执行仍发生在Azure资源中。
此功能对于过渡到Fabric的组织非常有用,因为它提供了 ADF 和Fabric资源的统一视图,简化了迁移的管理和规划。
有关详细信息,请参阅 将Azure 数据工厂引入 Fabric。
相关内容
- 迁移最佳做法
- ADF 与 Fabric 数据工厂之间的连接器比较