注释
本页介绍新版本的信息提取。 有关以前版本的信息,请参阅 “使用信息提取”(旧版)
信息提取使用定义的架构将非结构化文档和文本转换为关键结构化见解。 这样,便可以使用嵌入在非结构化文本、PDF、图像或表中的信息直接用于分析、报告或下游代理和应用程序。
信息提取的示例包括:
- 从合同中提取法律当事人和条款。
- 从发票中提取行项和付款条款。
- 从医疗记录和笔记中提取关键详细信息。
信息提取是基于 AI 函数 ai_extract构建的。 信息提取具有可视化 UI,用于自定义和优化具有用于提取的已定义架构的函数。
信息提取使用 默认存储 来存储为每个代理提供支持的临时数据转换、模型检查点和内部元数据。 删除代理时,Databricks 将从默认存储中删除与代理关联的所有数据。
Requirements
- 包含以下内容的工作区:
- 已启用无服务器计算。 请参阅 无服务器计算要求。
- 启用了 Unity Catalog。 请参阅为工作区启用 Unity Catalog。
- 获取有非零预算的无服务器使用策略。
- 此函数仅在某些区域中可用,请参阅 AI 函数可用性。
- 对于具有增强安全与合规附加组件的工作区,
- 请参阅
ai_extract的区域支持情况,以了解相应的 合规性标准。 - 有关如何在工作区上启用预览版,请参阅“管理Azure Databricks预览”。
- 请参阅
- 能够使用
ai_extractSQL 函数。 - 要从中提取信息的非结构化数据。 数据必须位于 Unity 目录卷或表中。
- 要构建您的代理,Unity Catalog 卷中必须至少有 1 个文件,或者您的表中至少有 1 行数据。
创建信息提取代理
转到工作区左侧导航窗格中的代理。 单击“ 创建代理>信息提取”。
步骤 1。 选择要从中提取信息的数据
在 “开始数据 ”页上,选择要从中提取信息的文件或数据。 您可以执行以下任一操作:
- 将一个或多个文件拖放到上传区域中,或单击以浏览要上传的文件。
- 单击 “选择卷” 以选择支持文件类型的 Unity 目录卷。
- 单击 “选择表” 以选择包含文本数据的 Unity 目录表。
如果选择表,请选择包含要从中提取数据的列。 必须先选择一个受支持类型的列(如 STRING 或 VARIANT),然后才能继续。 如果表不包含受支持的列,请选择其他表。
单击“ 创建代理”。 只有在选择了有效的数据源后,并且如果选择的是表,还选择了受支持的列,此按钮才会启用。
步骤 2。 配置和优化提取架构
信息提取过程处理完数据后,配置和精炼您希望从文档中提取的数据。
在“配置”下,定义提取架构。 有若干方法可实现此操作:
- 输入描述要提取的信息的自然语言,然后单击“ 生成架构”。 信息提取会自动生成包含字段名称和定义的 JSON 架构。 根据需要编辑这些说明。
- 或者,单击 “或”手动定义 “以手动定义架构:
- 单击添加字段。
- 输入字段名称、类型和说明。
- 单击“确认”。
- 对要提取的每个字段重复此操作。
- 单击“ 保存并运行提取”。
- 还可以单击 JSON 直接编辑 JSON 架构。 完成后,单击 “应用更改 ”。
每次更新架构并单击“ 保存并运行提取”时,信息提取都会更新提取代理,运行提取,并显示每个输入的结果。
请在左侧查看已解析的文档和代理的提取结果。 以两种方式迭代提取结果。 首先,针对一个或多个输入提供自然语言反馈,在按 “保存”并运行提取时自动调整说明。 其次,手动修改架构说明,这在按 “保存”并运行提取时生效。
使用版本来比较或恢复到之前的配置。 单击“ 版本”,然后单击“ 比较” ,将以前版本的架构定义与当前版本进行比较。 单击 “还原 ”以还原以前的版本。
步骤 3。 使用提取工具
对代理的性能感到满意后,请使用代理提取信息。
单击右上角的使用代理人。 可以选择以下两种方式之一:
-
在 SQL 中运行 以使用代理从所有数据中提取信息。 这会打开一个 SQL 查询,该查询用于
ai_extract使用定义的架构从卷或表中提取信息。 有关在 SQL 查询中使用ai_extract的详细信息,请参阅ai_extract函数。 - 创建 Spark 声明性管道 ,以部署按计划间隔运行的 ETL 管道,以在新数据上调用代理。 这会创建 Lakeflow Spark 声明性管道,以便使用提取的数据更新流数据表。 可以将管道的计划配置为在新数据到达时运行。 有关 Lakeflow Spark 声明性管道的详细信息,请参阅 Lakeflow Spark 声明性管道。
Limitations
- 请参阅 限制
- 信息提取代理的最大上下文长度为 128k 令牌。
- 不支持联合架构类型。