在千问云上创建评测任务,选择数据来源、评测模型和评测维度,量化模型输出质量。
评测任务将评测维度应用于具体的数据和模型,生成量化的评测结果。您可以在评测任务控制台页面创建和管理评测任务。
评测任务列表展示以下信息:
点击操作列的详情,进入评测结果页面,包含两个标签页:
创建评测任务
1
进入创建页面
在评测任务列表页,点击创建。系统会自动生成任务名称(格式:
eval_YYYYMMDD_HHMMSS),您也可以自行修改。2
3
选择数据并配置
根据所选数据来源,页面展示的配置项不同:
- 评测数据集:从下拉框中选择一个已发布的评测数据集,然后选择用于对数据集执行推理的评测模型。点击管理数据集可跳转到数据集管理页面创建或发布数据集。
- 推理结果集:上传或选择已有的推理结果集,无需选择评测模型(推理结果已包含模型输出),直接进入下一步选择评测维度。
建议的评测数据量:50-100 条用于小规模验证配置是否正确,200-500 条用于正式评测以获得可靠的统计结果,500+ 条用于全面评测覆盖各种边界情况。
4
选择评测维度
选择一个或多个评测维度。点击管理评测维度可跳转到评测维度管理页面。
5
确认计费详情
展开计费详情查看预估费用。评测打分过程免费,推理过程按 Token 计费。
6
提交任务
点击创建提交评测任务。
管理评测任务
评测任务列表展示以下信息:
| 列 | 说明 |
|---|---|
| 任务名称 | 评测任务的名称 |
| 得分 | 各评测维度的得分(数值型显示分数,分类型显示通过率) |
| 状态 | 任务执行状态 |
| 评测模型 | 用于推理的模型 |
| 数据集 | 关联的评测数据集 |
| 评测维度 | 使用的评测维度列表 |
| Token | 推理消耗的 Token 数量 |
| 操作 | 查看详情、删除等操作 |
查看评测结果
点击操作列的详情,进入评测结果页面,包含两个标签页:
- 指标 — 汇总各评测维度的整体表现。数值型维度展示平均分、分数分布和通过率;分类型维度展示各标签的占比和整体通过率。可快速对比不同维度的得分情况。
- 数据详情 — 逐条展示评测样本的打分明细,包括输入 prompt、模型输出(推理结果集为已上传的 output,评测数据集为在线推理结果)、参考答案以及各维度的打分和 AI 裁判给出的判定理由。支持按维度筛选和按通过/未通过筛选,便于定位模型表现不佳的样本。