评测维度 - 千问云

评测维度定义了评测任务的打分标准。您可以在评测维度控制台页面创建和管理维度。

维度类型

类型	说明	打分方式	适用场景
LLM - 数值	由 AI 裁判按数值范围（如 0-5）为回答打分	输出数值	问答质量、内容生成质量
LLM - 分类	由 AI 裁判将回答判定为通过/不通过	输出标签	内容安全、正确性判断
人工 - 分类	由人工使用自定义分类对回答进行标注	人工标注，选择标签	创意性评测、专业判断

一个评测任务可以组合多个评测维度，从不同角度评测模型表现。

创建评测维度

进入创建页面

在评测维度列表页，点击创建。

填写基本信息

输入维度名称（必填）和描述（可选，用于说明该维度的评测目的）。

选择维度类型

选择 LLM - 数值、LLM - 分类或人工 - 分类。不同类型的后续配置项有所不同。

配置评分规则

根据所选类型完成配置（详见下方各类型说明），然后点击创建。

LLM - 数值

适用于需要量化打分的场景（如回答质量评分 1-5 分）。

配置项	说明
裁判模型	执行打分的 AI 模型
打分模板	预置的打分 prompt 模板，可选：综合评测（默认，从相关性、信息丰富性、清晰性等维度打分）、语义相似度（评测输出与参考答案的语义接近程度）、自定义打分器（自行编写打分 prompt）
提示词	打分指令，支持引用变量 `${prompt}`、`${output}`、`${completion}`
分数范围	评分的最小值和最大值（默认 0-5）
通过阈值	达到此分数即视为通过（默认 3）

提示词中可使用以下变量，系统会在评测时自动替换为实际内容：

${prompt} — 用户输入（评测数据中的问题）
${output} — 模型输出（被评测模型生成的回答）
${completion} — 参考答案（评测数据中的标准答案，有标准答案时使用）

LLM - 分类

适用于二元判定场景（如回答是否符合标准、内容是否安全）。

配置项	说明
裁判模型	执行分类的 AI 模型
打分模板	预置的分类 prompt 模板，可选：标准匹配（默认）、情感分析（判断回答的情感倾向）、自定义打分器（自行编写分类 prompt）
提示词	分类指令，支持引用变量 `${prompt}`、`${output}`、`${completion}`。AI 裁判输出 `[[Pass]]` 或 `[[Fail]]`
标签	定义通过和不通过的标签集合，支持添加自定义标签（每类最多 20 个）

人工 - 分类

适用于需要人工判断的场景。此类型无需配置裁判模型和提示词。

配置项	说明
标签	定义通过和不通过的标签集合，支持添加自定义标签（每类最多 20 个）

裁判模型

LLM 类型的维度支持以下裁判模型（实际以控制台显示为准）：

Qwen3.7-Plus-2026-05-26
Qwen3.7-Max-2026-06-08
Qwen3.6-Flash-2026-04-16
kimi-k2.7-code
DeepSeek-V4-Pro
DeepSeek-V4-Flash
glm-5.2
Themis-turbo

管理评测维度

在评测维度列表页，您可以：

筛选 — 使用"全部类型"下拉框按维度类型筛选。
详情 — 点击操作列的详情按钮查看维度配置。
删除 — 点击操作列的删除按钮移除维度。

已被评测任务引用的评测维度无法删除。如需删除，请先删除引用该维度的评测任务。

下一步

评测任务 -- 使用评测维度创建评测任务。
创建数据集 -- 准备评测数据集。

​维度类型

​创建评测维度

​LLM - 数值

​LLM - 分类

​人工 - 分类

​裁判模型

​管理评测维度

​下一步

维度类型

创建评测维度

LLM - 数值

LLM - 分类

人工 - 分类

裁判模型

管理评测维度

下一步