了解 Lakeflow 作业的关键组件

3 分钟

Lakeflow 作业由多个关键组件构成，这些组件用于在云中有效协调和执行数据处理任务。主要组件如下：

作业：作业是 Lakeflow 作业中的主要组件。它们用于定义和计划自动化任务，例如运行笔记本、脚本或编译的 Java 存档 (JAR)。可以按计划触发或手动运行作业，并可以将其设置为处理依赖项和复杂工作流。
任务：Databricks 作业支持各种任务类型，包括笔记本、脚本和包、SQL 查询、管道和控制流任务。还可以定义任务之间的依赖关系，以协调复杂的多步骤工作流。任务组织为 定向无环图（DAG），直观地表示执行顺序和依赖项关系。
Compute：Azure Databricks提供三个计算选项用于运行任务。 无服务器计算是受支持的任务类型的默认类型，Azure Databricks自动管理基础结构，因此无需配置群集设置。 使用经典作业计算 可以控制群集配置（Spark 版本、实例类型、自动缩放策略），并在需要特定配置或库时使用。 SQL 仓库 运行 SQL 查询任务，并连接到工作区中的现有无服务器或 pro SQL 仓库。
计划和触发器：计划和触发器确定如何以及何时执行作业。可通过手动方式或按计划（使用 cron 表达式）触发作业，或者触发来响应特定触发器。这为如何协调 Lakeflow 作业提供了灵活性。
Notebooks：Databricks 笔记本是包含可运行代码、可视化效果和叙述文本的协作文档。它们是 Lakeflow 作业中的常见执行单元，可用于协调复杂的数据转换、可视化效果和机器学习模型。
库：Databricks 中的库包含可供笔记本和作业使用的包或模块。模块可以包含 Python 包、Java/Scala 库或 R 包。库可以附加到群集并可供任务在执行期间使用。
监视和日志记录：Azure Databricks 提供用于监视作业和群集性能的工具。日志和指标会自动收集，可帮助你诊断问题和优化性能。与 Azure Monitor 集成可对整个 Azure 生态系统进行全面监视并发出警报。
自动化：Databricks 提供 Databricks CLI、Databricks SDK 和 REST API，用于以编程方式创建和管理作业，实现与外部系统和自动化工具的集成。

这些组件协同工作，为管理数据工作流提供了一个可靠的框架，用于在安全且可缩放的云环境中实现有效的处理和协作。

反馈

此页面是否有帮助？