评估作质量、可靠性和成本时,请考虑选择代理主机,例如智能 Microsoft 365 Copilot 副驾驶®(声明性代理)、Copilot Studio(自定义代理)或Azure。 将这个决定与代理编写方法分开。 代理运行或托管地点决定了其编排能力、模型访问和运营特性。 这些功能直接影响到大规模操作解决方案的响应质量、性能和成本。
本文解释了代理主机平台如何影响解决方案的能力。 你将了解,不同的编写方法如何在同一宿主平台上创建代理,同时保持一致的质量和行为;同一种编写方法又如何在不同平台上创建出质量和行为结果各异的代理;以及宿主如何影响解决方案的成本构成。
成本作为可操作性注意事项
将成本视为稳定状态的操作特征,而不是一次性采购问题。 两种解决方案可以产生相同的答案,同时因成本数量级而异,因为成本由代理运行 方式 驱动,而不仅仅是它返回 的内容 。 宿主平台基本上决定了你可用的调控手段:
- 每个交互的令牌消耗量。 模型在给定轮次上处理的每个指令、知识片段和工具定义都会在该轮次上计费。 每个交互上加载的常量上下文都是在每个交互上付费的,无论它是否相关。
- 模型轮次数。 编排器决定完成一项任务所需调用模型的次数。 更多的工具调用循环和更多的重新规划意味着更多的推理。
- 模型选择。 较大的推理模型每个词元的成本更高,还会增加延迟。 主机确定哪些模型可用,以及是否可以将不同的步骤路由到不同的模型。
- 决定论。 确定性的工作根本不需要模型推理。 将其放入代码或操作中,可以同时消除 token 成本和可变性。
后面的部分细分了影响成本最高的控件:业务流程工具、模型选择以及构建指令与确定性操作的方式。
智能 Microsoft 365 Copilot 副驾驶® 托管
智能 Microsoft 365 Copilot 副驾驶®为具有内置治理、安全性和合规性功能的声明性代理提供托管环境。 无论你用哪种创建代理的创作方式,该平台都能提供一致的性能特性。
例如,可以使用 智能 Microsoft 365 Copilot 副驾驶®、
不同的创作平台提供不同层次的运营能力,适合不同的组织需求和开发生命周期阶段。 只要基础智能体主机仍然是智能 智能 Microsoft 365 Copilot 副驾驶® 副驾驶®(声明性智能体),在您使用不同的创作画布满足操作需求时,质量始终保持一致。
下表总结了声明式代理使用哪种创作平台的考虑因素,作为示例。
| 要求 | Copilot 中的代理生成器功能 | Copilot Studio | 专业编程 |
|---|---|---|---|
| 解决方案所有者 | 个人 | Group | Enterprise |
| 更新与维护 | 无版本控制 | 带有锁定编辑功能的版本控制 | 版本控制与并发编辑 |
| 评估框架 | 测试小组 | 测试面板与专业代码 | 完全可自定义 |
| CI/CD | 没有 | Some | 是的 |
| 实时监视 | 没有 | 没有 | 是的 |
| Telemetry | Limited | Some | 完全可自定义 |
| 成本/投资回报 | 智能 Microsoft 365 Copilot 副驾驶® 中包含 | 从许可到消费范围 | 完全可根据专业代码选择进行定制 |
| Work IQ 消耗成本 | Work IQ grounding 已包含在 智能 Microsoft 365 Copilot 副驾驶® 许可证中;未获许可的用户将按使用量计费 | 按用量计费的 Copilot 点数(即用即付或预付费) | 通过 Work IQ API 在 Copilot 点数中按用量计费;在 Microsoft 365 管理中心中按计量方式计费并设有上限 |
例如,当代理调用 Work IQ 来获取上下文、执行检索或采取操作时,这类使用会按不同标准计费,所需积分成本会随着场景复杂度而变化,其中包括上下文大小、推理深度和步骤数量。
Note
不存在单独的 Work IQ 订阅、SKU 或单用户许可。 由于聊天和上下文的成本是可变的,两个功能类似的代理所消耗的点数量可能会有很大差异,这取决于它们依托了多少上下文,以及进行了多少多步推理。 使用Microsoft 365 管理中心中的成本管理仪表板监视信用额度使用情况,并为租户、组和用户设置支出限制。 这使得 面向成本优化进行架构设计 中的成本优化模式——尽量减少始终在线的上下文,并将确定性工作交给脚本和操作处理——与控制 Work IQ 支出直接相关。
还要考虑其他因素,比如提升开发者效率和调试工具(未在表中显示)。 请记住,这些因素很大程度上受贵组织安全态势及其对特定开发平台的能力影响。
将智能 Microsoft 365 Copilot 副驾驶®代理生成器中内置的声明性代理提升为使用 Microsoft 365 Agents Toolkit 创作的声明性代理。 此策略保持智能 Microsoft 365 Copilot 副驾驶®作为业务流程协调程序,以确保代理行为一致。 如果在 Copilot Studio 中构建的实验性自定义代理满足概念验证评估标准,并且企业运营需要源代码管理,则将代理提升到 Power Platform 中托管的 pipeline。 此方法可确保 Copilot Studio 业务流程协调程序仍然是维护代理行为的主要机制。
业务流程和代理工具
编排器(即控制框架)是一个运行时循环,负责规划步骤、选择并调用工具、管理上下文窗口,并决定任务何时完成。 它是响应质量和运营成本的单一最大驱动因素,因为它控制了模型轮次的发生次数、每个轮次累积的上下文量,以及工具结果如何反馈到模型中。
由于宿主平台提供编排器,因此对宿主平台的选择在很大程度上决定了你的成本和延迟范围:
- 智能 Microsoft 365 Copilot 副驾驶®提供受管控的业务流程协调程序。 你可以获得可预测且包含许可证费用的成本,以及一致的行为表现,但对循环本身的控制能力有限。
- Copilot Studio 提供可配置的编排(例如主题和生成式编排)。 成本范围从基于许可证到基于消耗量,具体取决于你委托给模型的生成工作量。
- Azure 和专业代码让你完全掌控整个循环。 评估代码维护成本相较于采用维护完善的框架或 SDK(如 Copilot SDK)的成本。
当主机提供这些能力时,关键的编排控制手段包括:
- 轮次预算。 限制或调整编排器在返回结果之前可进行的规划和工具调用迭代次数。
- 并行与顺序工具调用。 同时运行独立工具调用可降低延迟;合并它们会减少轮次。
- 上下文管理。 通过对对话进行裁剪、摘要化或窗口化处理,可以防止上下文无限增长,从而使每轮的令牌成本保持稳定,而不是不断累积上升。
- 缓存。 在跨轮次或跨会话时重用已缓存的提示前缀,可避免对固定的上下文再次计费。
Note
能力更强的编排器可以同时提高质量和成本。 让编排复杂度与任务相匹配:简单的查询代理不需要多步生成式规划,为此买单只会推高成本,并不能改善效果。
模型选择
选择的模型会影响每个令牌的成本和延迟,这在很大程度上独立于创作方法。 较大的推理模型在复杂任务上提供更高质量的结果,但每个令牌的成本更高,响应速度更慢。 应根据任务难度选择匹配的模型,而不是对每项任务都默认选择能力最强的选项。
在主机支持时为模型路由设计架构:
- 为真正困难的步骤保留边界推理模型,例如模棱两可的推理、合成或开放式生成。
- 将确定性或简单的子任务 (例如分类、提取、格式设置和路由决策)路由到更小、更便宜、更快的模型。
- 在单个代理中混合使用模型,前提是编排器支持按步骤选择模型,这样每个步骤只需为其所需的能力付费。
主机平台确定目录中的哪些模型、是否可以按步骤路由、最大上下文窗口(较大的窗口允许更多上下文,但每个轮次的成本更高),以及提示缓存是否可用。 在主机决策过程中验证这些功能,因为它们限制以后可以执行的模型级成本优化。
面向成本优化的架构设计
除了选择主机、编排器和模型之外,如何组织代理的指令和行动也会对成本产生直接且持续的影响。 两个原则指导经济高效的设计:
不要为可通过确定性方式完成的工作支付模型推理成本。 将确定性操作捆绑到脚本、操作或连接器中,而不是将它们描述为模型必须在每次运行时解释的自然语言指令。 代码执行一次,成本低,输出可预测,无令牌成本或可变性。 每次都用自然语言按同样的流程进行推理,都会产生一次推理成本,并且有导致结果不一致的风险。
不要为很少使用的说明支付站立令牌费用。 即使它们与用户的请求无关,预加载的代理级指令也会在每个交互的轮次上计费。 只在任务匹配时才按需加载指导内容和知识,这意味着你只会在实际使用这部分上下文时为其付费,而不是持续付费。 这种渐进式披露模式使每个交互的基线成本保持较低。
下表总结了何时将指令预加载到代理中,而不是何时将工作推送到确定性脚本或按需资源。
| 在…时预加载代理级指令 | 在以下情况下,请使用脚本、操作项或按需资源…… |
|---|---|
| 此行为适用于几乎每个交互(核心角色、语气、安全防护措施)。 | 此行为特定于任务,或仅偶尔相关。 |
| 指导简短且始终相关。 | 本指南很长,或者由大量参考或知识材料提供支持。 |
| 模型确实需要推理或调整行为。 | 该操作是确定性的、可重复的,并且具有定义完善的输出。 |
| 额外的检索或工具调用的延迟会损害体验。 | 在每个轮次上携带上下文的令牌成本超过了偶尔的负载。 |
在实践中,经济高效的代理将始终启用的指令保持在最低水平,并专注于标识和安全,将固定过程表示为脚本或操作,并将专业知识和特定于任务的指南公开为仅当相关时加载的按需资源。 结果是降低每个交互令牌的成本、更可预测的行为,以及更小、更易于维护的核心提示 - 无需牺牲功能。
后续步骤
了解如何通过评估框架衡量代理质量、验证不同场景下的性能,并确保部署前的运行准备。