在千问云上创建和管理评测维度,支持 LLM 数值打分、LLM 分类判定和人工标注三种类型。
评测维度定义了评测任务的打分标准。您可以在评测维度控制台页面创建和管理维度。
一个评测任务可以组合多个评测维度,从不同角度评测模型表现。
适用于需要量化打分的场景(如回答质量评分 1-5 分)。
适用于二元判定场景(如回答是否符合标准、内容是否安全)。
适用于需要人工判断的场景。此类型无需配置裁判模型和提示词。
LLM 类型的维度支持以下裁判模型(实际以控制台显示为准):
在评测维度列表页,您可以:
维度类型
| 类型 | 说明 | 打分方式 | 适用场景 |
|---|---|---|---|
| LLM - 数值 | 由 AI 裁判按数值范围(如 0-5)为回答打分 | 输出数值 | 问答质量、内容生成质量 |
| LLM - 分类 | 由 AI 裁判将回答判定为通过/不通过 | 输出标签 | 内容安全、正确性判断 |
| 人工 - 分类 | 由人工使用自定义分类对回答进行标注 | 人工标注,选择标签 | 创意性评测、专业判断 |
创建评测维度
1
进入创建页面
在评测维度列表页,点击创建。
2
填写基本信息
输入维度名称(必填)和描述(可选,用于说明该维度的评测目的)。
3
选择维度类型
选择 LLM - 数值、LLM - 分类或人工 - 分类。不同类型的后续配置项有所不同。
4
配置评分规则
根据所选类型完成配置(详见下方各类型说明),然后点击创建。
LLM - 数值
适用于需要量化打分的场景(如回答质量评分 1-5 分)。
| 配置项 | 说明 |
|---|---|
| 裁判模型 | 执行打分的 AI 模型 |
| 打分模板 | 预置的打分 prompt 模板,可选:综合评测(默认,从相关性、信息丰富性、清晰性等维度打分)、语义相似度(评测输出与参考答案的语义接近程度)、自定义打分器(自行编写打分 prompt) |
| 提示词 | 打分指令,支持引用变量 ${prompt}、${output}、${completion} |
| 分数范围 | 评分的最小值和最大值(默认 0-5) |
| 通过阈值 | 达到此分数即视为通过(默认 3) |
提示词中可使用以下变量,系统会在评测时自动替换为实际内容:
${prompt}— 用户输入(评测数据中的问题)${output}— 模型输出(被评测模型生成的回答)${completion}— 参考答案(评测数据中的标准答案,有标准答案时使用)
LLM - 分类
适用于二元判定场景(如回答是否符合标准、内容是否安全)。
| 配置项 | 说明 |
|---|---|
| 裁判模型 | 执行分类的 AI 模型 |
| 打分模板 | 预置的分类 prompt 模板,可选:标准匹配(默认)、情感分析(判断回答的情感倾向)、自定义打分器(自行编写分类 prompt) |
| 提示词 | 分类指令,支持引用变量 ${prompt}、${output}、${completion}。AI 裁判输出 [[Pass]] 或 [[Fail]] |
| 标签 | 定义通过和不通过的标签集合,支持添加自定义标签(每类最多 20 个) |
人工 - 分类
适用于需要人工判断的场景。此类型无需配置裁判模型和提示词。
| 配置项 | 说明 |
|---|---|
| 标签 | 定义通过和不通过的标签集合,支持添加自定义标签(每类最多 20 个) |
裁判模型
LLM 类型的维度支持以下裁判模型(实际以控制台显示为准):
- Qwen3.7-Plus-2026-05-26
- Qwen3.7-Max-2026-06-08
- Qwen3.6-Flash-2026-04-16
- kimi-k2.7-code
- DeepSeek-V4-Pro
- DeepSeek-V4-Flash
- glm-5.2
- Themis-turbo
管理评测维度
在评测维度列表页,您可以:
- 筛选 — 使用"全部类型"下拉框按维度类型筛选。
- 详情 — 点击操作列的详情按钮查看维度配置。
- 删除 — 点击操作列的删除按钮移除维度。
已被评测任务引用的评测维度无法删除。如需删除,请先删除引用该维度的评测任务。