通过


创建单个响应测试集

单次响应评估仅针对一个独立问题测试您的智能体,而非整个对话。 例如,客户服务代理的单个响应评估询问 你的工作时间是什么?,记录代理对该问题的响应,然后从新问题开始, 如何查找我的订单历史记录?

当你想要测试代理如何回答特定问题、它调用的功能以及它在其答案中使用的确切措辞时,单一响应评估是很好的。 还可以运行 对话评估,这样就可以通过较长的交互来评估代理的行为。

评估使用 测试集。 单个响应评估的测试集由最多 100 个 测试用例组成。 运行代理评估时,选择一个测试集,Copilot Studio针对代理运行该集中的每个测试用例。

你可以在测试集内手动创建测试用例,使用电子表格导入,或者利用AI根据代理的设计和资源生成消息。 然后你可以选择如何衡量代理在每个测试用例中的响应质量。

有关代理评估的工作原理,请参见 《关于代理评估》。

如需了解如何编辑现有测试集,请参见 “更改测试集细节”。

重要

测试结果在 Copilot Studio 89 天内可用。 为了更长时间地保存测试结果,请将结果导出为CSV文件。

创建新的测试集

  1. 访问你经纪人的 评估 页面。

    截图展示了在因屏幕尺寸压缩导致标签页选择受限时,如何选择评估标签页。

  2. 选择 “新建评估”,然后选择 “单个响应”。

    显示评估页面上创建新测试按钮的截图。

  3. 选择要用于创建测试集的方法。 一个测试集最多可包含100个测试用例。

    • 快速问题集 以便 Copilot Studio 根据代理的描述、说明和功能自动创建测试用例。 该选项生成10个问题,用于进行小型快速评估或开始构建更大测试集。
    • 完整问题集让 Copilot Studio 使用某个知识来源或主题生成测试用例,并选择要生成的问题数量。
    • 利用你的测试聊天对话,将你在 测试聊天 中提供的问题自动填入测试集中。 这种方法使用最新测试聊天中的题目。 您也可通过测试聊天界面中的评估 按钮启动评估。 测试聊天中显示创建新测试按钮的截图。
    • 通过将文件拖入指定区域,选择“浏览”上传文件,或选择其他上传选项,从文件导入测试用例。
    • 或者,自己写一些题 目,手动创建测试集。 按照步骤 编辑测试集 以添加和编辑测试用例。
    • 使用智能体分析中的基于主题的生产数据 截图显示主题列表中一个主题的“评估”选项。
  4. 名称下,为测试集输入名称。

  5. 更改或添加你想使用的 测试方法

    • 添加一种新方法:
      1. 选择 添加测试方法
      2. 选择所有你想测试的方法,然后选择 确定
      3. 有些方法要求通过分数。 及格分数决定了何种得分结果视为通过或失败。 设置好分数,然后选择 确定
      4. 有些方法需要为每个测试用例添加预期响应或关键词。 更多信息请参见 选择评估方法
    • 选择一个现有的测试方法进行 编辑或删除
    测试方法 措施 测试集类型 计分 配置
    整体质量 根据特定属性评估测试用例响应的质量 单个响应或对话 评分满分为100%。 None
    比较含义 测试用例答案的意义与预期答案的匹配程度 单个响应 评分满分为100%。 合格分数,预期答案
    能力使用 测试用例是否使用了所有预期的资源或者仅使用了一些预期的资源 单个响应 通过/不通过 预期能力
    关键词匹配 测试用例是否使用了全部或任何预期的关键词或短语 单个响应或对话 通过/不通过 预期关键词或短语
    文本相似性 测试用例答案文本与预期答案的匹配程度 单个响应 评分满分为100%。 合格分数,预期答案
    完全匹配 测试用例的答案是否完全符合预期答案 单个响应 通过/不通过 预期答案
  6. 编辑测试用例的细节。 除 常规质量之外的所有测试方法都需要预期的响应或关键字。 有关编辑测试用例的详细信息,请参阅 “修改测试集”。

  7. 选择 用户配置文件,然后选择或添加你想用于此测试集的账户,或者继续进行不认证。 评估在测试中使用该账户连接知识来源和工具。 如果选择了与使用连接器身份验证的帐户不同的帐户进行评估,则使用连接器或工具的代理将失败。 有关添加和管理用户配置文件的信息,请参见 “管理用户配置文件和连接”。

    注释

    自动化测试使用所选测试账户的认证。 如果你的代理拥有需要特定认证的知识来源或关系,请选择合适的账户进行测试。 当Copilot Studio生成测试用例时,它将使用连接的帐户的身份验证凭据来访问代理的知识源和工具。 生成的测试用例可以包括连接的帐户可以访问的敏感数据。 任何有权访问代理的制造商还可以查看链接到该代理的测试集。

  8. 选择 “保存 ”以更新测试集而不运行测试用例;选择 “评估 ”以立即运行测试集。

测试用例生成的限制

如果有一个或多个问题违反了你代理的内容审核设置,测试用例生成就会失败。 原因可能为:

  • 代理的指令或主题引导模型生成系统标记的内容。
  • 连接的知识源包含敏感或受限内容。
  • 代理的内容审核设置过于严格。

要解决问题,可以尝试不同的作,比如调整知识来源、更新说明或修改审核设置。

一个测试集最多可包含100个测试用例。

从知识或主题生成测试集

你可以利用代理人已有的信息和对话资源生成问题来测试你的代理人。 此测试方法适用于测试代理使用它已有的知识源或主题的方式,但不适合测试信息差距。

您可以通过以下知识源生成测试用例:

  • 文本

  • Microsoft Word

  • Microsoft Excel

最多可以使用 5 MB 的文件来生成测试问题。

生成测试集:

  1. 新评估中,选择 完整题集

  2. 选择 知识主题

    • 知识对使用 生成式编排的代理来说效果最佳。 此方法使用代理的知识源之一创建问题。
    • Topic 对使用 经典编排的代理来说效果最佳。 这种方法通过利用代理程序的主题来生成问题。
  3. 对于 知识,请选择要用于生成问题的知识源。

    截图显示了测试用例生成中知识源的选择。

  4. 对于 知识主题,选择并拖动滑块以选择生成的问题数量。

    截图显示了选择生成问题数量的滑块。

  5. 然后选择“生成”

  6. 名称下,为测试集输入名称。

    1. 更改或添加你想使用的 测试方法
    • 添加一种新方法:
      1. 选择 添加测试方法
      2. 选择所有你想测试的方法,然后选择 确定。 你可以添加多种方法。
      3. 对于某些方法,先设置一个通过分数,然后选择 确定。 及格分数决定了何种得分结果视为通过或失败。
      4. 有些方法需要为每个测试用例添加预期响应或关键词。 更多信息请参见 选择评估方法
    • 选择一个现有的测试方法进行 编辑或删除
  7. 编辑测试用例的细节。 除 一般质量外,所有使用方法的测试用例都需要预期响应。 关于编辑的更多信息,请参见 修改测试集

  8. 选择 “保存 ”以更新测试集而不运行测试用例;选择 “评估 ”以立即运行测试集。

创建用于导入的测试集文件

可以创建包含所有测试用例的电子表格文件并导入它们来创建测试集,而不是直接在Copilot Studio中生成测试用例。 可以撰写每个测试问题,确定要使用的测试方法,然后为每个问题陈述预期响应。 创建完文件后,将其另存为 .csv 或 .txt 文件,并将其导入到Copilot Studio。

重要

  • 该文件最多可以包含 100 个问题。
  • 每个问题最多可包含 1,000 个字符,包括空格。
  • 文件必须使用逗号分隔值 (CSV) 或文本格式。

要创建导入文件,请执行以下操作:

  1. 打开电子表格应用程序(例如,Microsoft Excel)。 选择“新建评估”后,可以在“数据源”下下载 CSV 模板。

  2. 按以下顺序在第一行中添加以下标题:

    • 问题
    • 预期回复
    • 测试方法
  3. 问题列中输入测试问题。 每个问题可以是 1,000 个字符或更少,包括空格。

  4. “测试方法 ”栏中,每个问题请输入以下其中一种测试方法:

    • 整体质量
    • 比较含义
    • 相似度
    • 完全匹配
    • 关键词匹配
  5. 预期响应列中输入每个问题的预期响应。 导入测试集时,预期响应是可选的。 但是,需要有预期响应才能运行匹配、相似性和比较含义测试案例。

  6. 将文件另存为 .csv 或 .txt 文件。

  7. 按照 创建新测试集中的步骤导入文件。

基于主题创建一个测试集

创建一个测试集,包含与真实用户对话中的问题。 此方法采用智能体分析中的主题(预览版)

主题是用户问题库中触发生成式答案的问答组合。 当你用主题创建测试集时,你会根据用户提出与该主题相关的问题生成测试用例。

利用这些测试集针对代理人职责范围的某个领域或主题进行评估。 例如,如果你有客服,你可以将 账单和付款 问题的回答质量与排查等其他用例分开追踪。

注释

在从主题创建测试集之前,你需要访问分析中的主题。 检查主题的条件(预览)。

  1. 在你的代理的 分析 页面,查看 主题 列表。

  2. 将鼠标悬停在主题上,然后选择 “评估”

    截图显示主题列表中的“评估”选项。

    你也可以选择 “全部查看 ”以查看更多主题,然后选择 “评估”。

  3. 选择“创建并打开”。

  4. 编辑测试集和案例的细节。 除 一般质量外,所有使用方法的测试用例都需要预期响应。 关于编辑的更多信息,请参见 修改测试集

  5. 选择 “保存 ”以更新测试集而不运行测试用例;选择 “评估 ”以立即运行测试集。