了解 Lakeflow 作业的关键组件
Lakeflow 作业由多个关键组件构成,这些组件用于在云中有效协调和执行数据处理任务。 主要组件如下:
作业:作业是 Lakeflow 作业中的主要组件。 它们用于定义和计划自动化任务,例如运行笔记本、脚本或编译的 Java 存档 (JAR)。 可以按计划触发或手动运行作业,并可以将其设置为处理依赖项和复杂工作流。
任务:Databricks 作业支持各种任务类型,包括笔记本、脚本和包、SQL 查询、管道和控制流任务。 还可以定义任务之间的依赖关系,以协调复杂的多步骤工作流。 任务组织为 定向无环图(DAG),直观地表示执行顺序和依赖项关系。
Compute:Azure Databricks提供三个计算选项用于运行任务。 无服务器计算是受支持的任务类型的默认类型,Azure Databricks自动管理基础结构,因此无需配置群集设置。 使用经典作业计算 可以控制群集配置(Spark 版本、实例类型、自动缩放策略),并在需要特定配置或库时使用。 SQL 仓库 运行 SQL 查询任务,并连接到工作区中的现有无服务器或 pro SQL 仓库。
计划和触发器:计划和触发器确定如何以及何时执行作业。 可通过手动方式或按计划(使用 cron 表达式)触发作业,或者触发来响应特定触发器。 这为如何协调 Lakeflow 作业提供了灵活性。
Notebooks:Databricks 笔记本是包含可运行代码、可视化效果和叙述文本的协作文档。 它们是 Lakeflow 作业中的常见执行单元,可用于协调复杂的数据转换、可视化效果和机器学习模型。
库:Databricks 中的库包含可供笔记本和作业使用的包或模块。 模块可以包含 Python 包、Java/Scala 库或 R 包。 库可以附加到群集并可供任务在执行期间使用。
监视和日志记录:Azure Databricks 提供用于监视作业和群集性能的工具。 日志和指标会自动收集,可帮助你诊断问题和优化性能。 与 Azure Monitor 集成可对整个 Azure 生态系统进行全面监视并发出警报。
自动化:Databricks 提供 Databricks CLI、Databricks SDK 和 REST API,用于以编程方式创建和管理作业,实现与外部系统和自动化工具的集成。
这些组件协同工作,为管理数据工作流提供了一个可靠的框架,用于在安全且可缩放的云环境中实现有效的处理和协作。