Fabric 运行时可与 Azure 无缝集成。 它为使用 Apache Spark 的数据工程和数据科学项目提供了先进的环境。 本文概述了 Fabric Runtime 1.3 的基本功能和组件。
Microsoft Fabric Runtime 1.3 是正式版运行时版本,其中包含以下组件和升级,旨在增强数据处理功能:
- Apache Spark 3.5
- 操作系统:Mariner 2.0(Azure Linux 2.0)
- Java:11
- 标量:2.12.17
- Python:3.11
- Delta Lake:3.2
- R:4.4.1
Important
运行时 1.3 的早期访问发布通道包括已从 Mariner 2.0(Azure Linux 2.0)升级到 Mariner 3.0(Azure Linux 3.0) 的操作系统。 使用 早期访问发布通道 针对此更改测试工作负荷,然后再将其设置为默认值。 此验证至关重要,尤其是在工作负荷依赖于 OS 级包时。
提示
Fabric Runtime 1.3 包括对 本机执行引擎的支持,这可以显著提升性能,而无需花费更多成本。 若要在环境中的所有作业和笔记本中启用本机执行引擎,请导航到环境设置,选择 Spark 计算,转到“加速”选项卡,并选中“启用本机执行引擎”。 保存和发布后,此设置将在整个环境中应用,因此所有新作业和笔记本都会自动继承并受益于增强的性能功能。
集成运行时 1.3
注释
有关所有可用 Fabric 运行时及其当前状态的信息,请参阅 Fabric 中的 Apache Spark 运行时。
按照以下说明将运行时 1.3 集成到工作区中,然后即可使用其新功能:
导航到 Fabric 工作区中的“工作区设置”选项卡。
转到“数据工程/科学”并选择“Spark 设置”。
选择环境选项卡。
在Runtime Versions下展开下拉列表。
选择“1.3(Spark 3.5、Delta 3.2)”并保存所做的更改。 此操作会将 1.3 设置为工作区的默认运行时。
你现在可以开始使用 Fabric 运行时 1.3 中引入的最新改进和功能(Spark 3.5 和 Delta Lake 3.2)。
了解 Apache Spark 3.5
Apache Spark 3.5.0 是 3.x 系列中的第六个版本。 此版本是开源社区中广泛协作的成果,解决了 Jira 中记录的 1,300 多个问题。
此版本包含一项有关结构化流兼容性的升级。 此外,此版本还扩展了 PySpark 和 SQL 中的功能。 它增加了多项功能,例如 SQL 标识符子句、SQL 函数调用中的命名参数以及纳入适用于 HyperLogLog 近似聚合的 SQL 函数等。
其他新功能还包括 Python 用户定义表函数、通过 DeepSpeed 简化分布式训练,以及水印传播和 dropDuplicatesWithinWatermark 操作等新的结构化流功能。
可在此处查看完整列表和详细更改: Spark 版本 3.5.0。
了解 Delta Spark
Delta Lake 3.2 标志着一项集体承诺,使 Delta Lake 可跨格式互操作、更易于使用且性能更高。 Delta Spark 3.2 基于 Apache Spark™ 3.5 构建。 Delta Spark maven 项目已从 delta-core 重命名为 delta-spark。
要了解完整的列表和详细更改,请访问此处:https://docs.delta.io/index.html。
组件和库
要了解最新信息、获取 Fabric 运行环境的详细变更列表及具体发行说明,请检查并订阅 Spark 运行环境版本和更新。
注释
EventHubConnector 在 Fabric Runtime 1.3(Spark 3.5)中已弃用,将从未来的 Fabric 运行时版本中删除。 建议客户改用 Kafka Spark 连接器,因为事件中心已兼容 Kafka。 可在此处找到有关将 Kafka Spark 连接器与事件中心配合使用的详细信息: 事件中心 Kafka Spark 教程