创建 Spark 群集

3 分钟

可以使用 Azure Databricks 工作区 UI 在 Azure Databricks 工作区中创建一个或多个群集。

Azure Databricks 工作区 UI 中的“创建群集”界面的屏幕截图。

创建群集时，可以指定配置设置，包括：

群集的名称。
访问模式，用于控制用户与群集的交互方式：
- 标准：多个用户可以并发共享群集。自动强制实施用户代码之间的隔离。适用于协作数据工程和共享分析。
- 专用：群集专门分配给单个用户或组。使用RDD API、GPU加速或R语言支持的工作负载需要这些功能。
群集体系结构，用于确定计算的分布方式：
- 多节点：一个驱动程序节点加上一个或多个工作器节点。为大型数据集启用分布式处理和水平缩放。
- 单节点：仅驱动程序节点，无工作器节点。适用于小型数据集、轻量级探索，或无法跨节点分布的机器学习框架，如 scikit-learn。
要用于群集的 Databricks Runtime 的版本;这决定了 Spark 的版本以及各个组件（如 Python、Scala）以及安装的其他组件。
用于群集中工作器节点的虚拟机（VM）的类型。
群集中最小和最大工作节点数。
用于群集中驱动程序节点的 VM 类型。
群集是否支持 自动缩放 以动态调整群集的大小。
群集在自动关闭之前可以保持空闲状态的时间。

Azure 如何管理群集资源

创建 Azure Databricks 工作区时， Databricks 设备 将部署为订阅中的 Azure 资源。在工作区中创建群集时，可以指定用于驱动程序节点和辅助角色节点的虚拟机的类型和大小，以及其他一些配置选项，但 Azure Databricks 管理群集的所有其他方面。

Databricks 设备作为订阅中的 托管资源组 部署到 Azure 中。此资源组包含群集的驱动程序和辅助角色 VM，以及其他必需的资源，包括虚拟网络、安全组和存储帐户。群集的所有元数据（例如计划作业）都存储在 Azure 数据库中，并通过地理复制实现容错。

Azure Databricks 拆分为两个主要平面： 控制平面，由Microsoft管理的后端服务（例如 Web UI）和运行数据工作负荷的 计算平面组成。计算有两种类型：经典计算和无服务器计算。经典计算使用您自己的 Azure 订阅和虚拟网络，提供订阅内部的隔离，而无服务器计算在 Databricks 托管环境内运行，但仍位于与您的工作区相同的 Azure 区域，并利用网络和安全控制在客户之间提供隔离。每个工作区都有一个订阅中的存储帐户，用于保存系统数据（笔记本、日志、作业元数据）、分布式文件系统（DBFS）和目录资产（如果已启用 Unity 目录），并具有额外的网络、防火墙和访问权限控制，以确保安全性和适当的隔离。

Azure Databricks 体系结构示意图。

Tip

对于交互式笔记本开发和大多数 ETL 工作负载，请考虑 无服务器计算 而不是经典计算群集。无服务器计算在 2-6 秒内启动，完全由Azure Databricks管理，并自动进行缩放，无需群集配置。有关计算选项的更深入地比较，请参阅 Microsoft Learn 中的选择和配置 Azure Databricks 中的计算。

注释

还可以选择将群集附加到空闲节点池，以减少群集启动时间。有关详细信息，请参阅 Azure Databricks 文档中的池。

反馈

此页面是否有帮助？