重要
本页介绍新的 AI 网关(在 UI 的左侧导航中可见),该网关目前为 Beta 版。 帐户管理员可以在帐户控制台 预览 页中启用对此功能的访问权限。 请参阅 Manage Azure Databricks 预览版。
有关以前版本的 Unity AI 网关的详细信息,请参阅 用于提供终结点的 Unity AI 网关。
注释
AWS GovCloud 或 Azure 政府 不支持 Unity AI 网关。
什么是 Unity AI 网关?
Unity AI 网关是用于管理 LLM 终结点、代理和编码工具的企业控制平面。 使用它来分析使用情况、配置权限和管理跨提供程序的容量。
使用 Unity AI 网关,可以:
- 分析 组织中如何使用 LLM、代理和编码工具
- Govern访问Azure Databricks托管模型和外部模型
- 记录所有终结点的 LLM 流量到 Unity Catalog
- 监视 端点状态和提供程序的可用性
- 强制实施 速率限制和防护措施
- 将成本归 咎于特定终结点、用户和团队
- 跨提供程序进行智能路由流量,以实现可靠性和负载均衡
- 跨多个模型后端拆分流量,实现可伸缩性
- 在不更改 代码的情况下切换提供程序和模型
支持的功能
下表定义了可用的 Unity AI 网关功能:
| 功能 / 特点 | Description |
|---|---|
| Permissions | 控制谁有权访问终结点。 |
| 使用情况跟踪 | 使用系统表监视使用情况和成本。 |
| 推理表 | 监控和审核 Unity Catalog 中 Delta 表的请求和响应。 |
| 运营指标 | 实时监视使用情况。 |
| 速率限制 | 在终结点、用户或组级别强制实施消耗限制。 |
| 护栏 | 应用内容筛选、敏感数据保护和自定义策略。 |
| 成本归因 | 使用终结点和请求标记按终结点、用户和团队按粒度级别跟踪成本。 |
| Fallbacks | 发生故障时,通过路由到多个提供程序来提高可靠性。 |
| 流量分流 | 跨多个模型后端分配流量,以提高可伸缩性和负载均衡。 |
| 自定义 API | 使用与 LLM 终结点相同的访问控制、速率限制和日志记录来管理自定义和外部 API。 |
注释
Unity AI 网关功能在 Beta 版期间不会产生费用。
使用 Unity AI 网关
Azure Databricks 为常用的大型语言模型(LLM)提供 Unity AI 网关端点。 可以创建新的终结点来管理代理、编码工具和其他应用程序。
若要入门,请参阅文档 配置 Unity AI 网关终结点。 若要查询终结点,请参阅 查询 Unity AI 网关终结点。 若要集成 Cursor、Gemini CLI、Codex CLI 和 Claude Code 等编码代理,请参阅 与编码代理集成。 若要通过 Unity AI 网关从创作和部署 Databricks 应用的代理路由 LLM 调用,请参阅 步骤 4。使用 Unity AI 网关管理 Databricks 应用上的代理的 LLM 使用情况。
查询快速入门
以下示例演示如何使用 Python 和 OpenAI 客户端查询 Unity AI 网关终结点:
from openai import OpenAI
import os
# To get a Databricks token, see https://docs.databricks.com/dev-tools/auth/pat
DATABRICKS_TOKEN = os.environ.get('DATABRICKS_TOKEN')
client = OpenAI(
api_key=DATABRICKS_TOKEN,
base_url="https://<workspace-url>/ai-gateway/mlflow/v1"
)
chat_completion = client.chat.completions.create(
messages=[
{"role": "user", "content": "Hello!"},
{"role": "assistant", "content": "Hello! How can I assist you today?"},
{"role": "user", "content": "What is Databricks?"},
],
model="databricks-gpt-5-2",
max_tokens=256
)
print(chat_completion.choices[0].message.content)
将 <workspace-url> 替换为Azure Databricks工作区 URL。