创建 Spark 群集
可以使用 Azure Databricks 工作区 UI 在 Azure Databricks 工作区中创建一个或多个群集。
创建群集时,可以指定配置设置,包括:
- 群集的名称。
-
访问模式,用于控制用户与群集的交互方式:
- 标准:多个用户可以并发共享群集。 自动强制实施用户代码之间的隔离。 适用于协作数据工程和共享分析。
- 专用:群集专门分配给单个用户或组。 使用RDD API、GPU加速或R语言支持的工作负载需要这些功能。
-
群集体系结构,用于确定计算的分布方式:
- 多节点:一个驱动程序节点加上一个或多个工作器节点。 为大型数据集启用分布式处理和水平缩放。
- 单节点:仅驱动程序节点,无工作器节点。 适用于小型数据集、轻量级探索,或无法跨节点分布的机器学习框架,如 scikit-learn。
- 要用于群集的 Databricks Runtime 的版本;这决定了 Spark 的版本以及各个组件(如 Python、Scala)以及安装的其他组件。
- 用于群集中工作器节点的虚拟机(VM)的类型。
- 群集中最小和最大工作节点数。
- 用于群集中驱动程序节点的 VM 类型。
- 群集是否支持 自动缩放 以动态调整群集的大小。
- 群集在自动关闭之前可以保持空闲状态的时间。
Azure 如何管理群集资源
创建 Azure Databricks 工作区时, Databricks 设备 将部署为订阅中的 Azure 资源。 在工作区中创建群集时,可以指定用于驱动程序节点和辅助角色节点的虚拟机的类型和大小,以及其他一些配置选项,但 Azure Databricks 管理群集的所有其他方面。
Databricks 设备作为订阅中的 托管资源组 部署到 Azure 中。 此资源组包含群集的驱动程序和辅助角色 VM,以及其他必需的资源,包括虚拟网络、安全组和存储帐户。 群集的所有元数据(例如计划作业)都存储在 Azure 数据库中,并通过地理复制实现容错。
Azure Databricks 拆分为两个主要平面: 控制平面,由Microsoft管理的后端服务(例如 Web UI)和运行数据工作负荷的 计算平面组成。 计算有两种类型:经典计算和无服务器计算。经典计算使用您自己的 Azure 订阅和虚拟网络,提供订阅内部的隔离,而无服务器计算在 Databricks 托管环境内运行,但仍位于与您的工作区相同的 Azure 区域,并利用网络和安全控制在客户之间提供隔离。 每个工作区都有一个订阅中的存储帐户,用于保存系统数据(笔记本、日志、作业元数据)、分布式文件系统(DBFS)和目录资产(如果已启用 Unity 目录),并具有额外的网络、防火墙和访问权限控制,以确保安全性和适当的隔离。
Tip
对于交互式笔记本开发和大多数 ETL 工作负载,请考虑 无服务器计算 而不是经典计算群集。 无服务器计算在 2-6 秒内启动,完全由Azure Databricks管理,并自动进行缩放,无需群集配置。 有关计算选项的更深入地比较,请参阅 Microsoft Learn 中的 选择和配置 Azure Databricks 中的计算。
注释
还可以选择将群集附加到空闲节点 池 ,以减少群集启动时间。 有关详细信息,请参阅 Azure Databricks 文档中的 池 。