跳转到主要内容
评测

评测维度

在千问云上创建和管理评测维度,支持 LLM 数值打分、LLM 分类判定和人工标注三种类型。

评测维度定义了评测任务的打分标准。您可以在评测维度控制台页面创建和管理维度。

维度类型

类型说明打分方式适用场景
LLM - 数值由 AI 裁判按数值范围(如 0-5)为回答打分输出数值问答质量、内容生成质量
LLM - 分类由 AI 裁判将回答判定为通过/不通过输出标签内容安全、正确性判断
人工 - 分类由人工使用自定义分类对回答进行标注人工标注,选择标签创意性评测、专业判断
一个评测任务可以组合多个评测维度,从不同角度评测模型表现。

创建评测维度

1

进入创建页面

在评测维度列表页,点击创建
2

填写基本信息

输入维度名称(必填)和描述(可选,用于说明该维度的评测目的)。
3

选择维度类型

选择 LLM - 数值、LLM - 分类或人工 - 分类。不同类型的后续配置项有所不同。
4

配置评分规则

根据所选类型完成配置(详见下方各类型说明),然后点击创建

LLM - 数值

适用于需要量化打分的场景(如回答质量评分 1-5 分)。
配置项说明
裁判模型执行打分的 AI 模型
打分模板预置的打分 prompt 模板,可选:综合评测(默认,从相关性、信息丰富性、清晰性等维度打分)、语义相似度(评测输出与参考答案的语义接近程度)、自定义打分器(自行编写打分 prompt)
提示词打分指令,支持引用变量 ${prompt}${output}${completion}
分数范围评分的最小值和最大值(默认 0-5)
通过阈值达到此分数即视为通过(默认 3)
提示词中可使用以下变量,系统会在评测时自动替换为实际内容:
  • ${prompt} — 用户输入(评测数据中的问题)
  • ${output} — 模型输出(被评测模型生成的回答)
  • ${completion} — 参考答案(评测数据中的标准答案,有标准答案时使用)

LLM - 分类

适用于二元判定场景(如回答是否符合标准、内容是否安全)。
配置项说明
裁判模型执行分类的 AI 模型
打分模板预置的分类 prompt 模板,可选:标准匹配(默认)、情感分析(判断回答的情感倾向)、自定义打分器(自行编写分类 prompt)
提示词分类指令,支持引用变量 ${prompt}${output}${completion}。AI 裁判输出 [[Pass]][[Fail]]
标签定义通过和不通过的标签集合,支持添加自定义标签(每类最多 20 个)

人工 - 分类

适用于需要人工判断的场景。此类型无需配置裁判模型和提示词。
配置项说明
标签定义通过和不通过的标签集合,支持添加自定义标签(每类最多 20 个)

裁判模型

LLM 类型的维度支持以下裁判模型(实际以控制台显示为准):
  • Qwen3.7-Plus-2026-05-26
  • Qwen3.7-Max-2026-06-08
  • Qwen3.6-Flash-2026-04-16
  • kimi-k2.7-code
  • DeepSeek-V4-Pro
  • DeepSeek-V4-Flash
  • glm-5.2
  • Themis-turbo

管理评测维度

在评测维度列表页,您可以:
  • 筛选 — 使用"全部类型"下拉框按维度类型筛选。
  • 详情 — 点击操作列的详情按钮查看维度配置。
  • 删除 — 点击操作列的删除按钮移除维度。
已被评测任务引用的评测维度无法删除。如需删除,请先删除引用该维度的评测任务。

下一步