跳转到主要内容
评测

评测任务

在千问云上创建评测任务,选择数据来源、评测模型和评测维度,量化模型输出质量。

评测任务将评测维度应用于具体的数据和模型,生成量化的评测结果。您可以在评测任务控制台页面创建和管理评测任务。

创建评测任务

1

进入创建页面

在评测任务列表页,点击创建。系统会自动生成任务名称(格式:eval_YYYYMMDD_HHMMSS),您也可以自行修改。
2

选择数据来源

从下拉框中选择数据来源类型。两种数据来源的上传入口与后续配置不同:
数据来源上传入口说明数据格式(JSONL)适用场景
评测数据集数据集管理页面创建并发布系统先用评测模型对数据集执行推理,再用评测维度打分Prompt(问题)+ Completion(参考答案)首次评测、对比多个模型
推理结果集模型评测页面上传直接用评测维度打分,跳过推理步骤Prompt + Output(模型输出),Completion(参考答案)可选已有推理结果、降低推理成本
3

选择数据并配置

根据所选数据来源,页面展示的配置项不同:
  • 评测数据集:从下拉框中选择一个已发布的评测数据集,然后选择用于对数据集执行推理的评测模型。点击管理数据集可跳转到数据集管理页面创建或发布数据集。
  • 推理结果集:上传或选择已有的推理结果集,无需选择评测模型(推理结果已包含模型输出),直接进入下一步选择评测维度。
建议的评测数据量:50-100 条用于小规模验证配置是否正确,200-500 条用于正式评测以获得可靠的统计结果,500+ 条用于全面评测覆盖各种边界情况。
4

选择评测维度

选择一个或多个评测维度。点击管理评测维度可跳转到评测维度管理页面。
5

确认计费详情

展开计费详情查看预估费用。评测打分过程免费,推理过程按 Token 计费。
6

提交任务

点击创建提交评测任务。

管理评测任务

评测任务列表展示以下信息:
说明
任务名称评测任务的名称
得分各评测维度的得分(数值型显示分数,分类型显示通过率)
状态任务执行状态
评测模型用于推理的模型
数据集关联的评测数据集
评测维度使用的评测维度列表
Token推理消耗的 Token 数量
操作查看详情、删除等操作

查看评测结果

点击操作列的详情,进入评测结果页面,包含两个标签页:
  • 指标 — 汇总各评测维度的整体表现。数值型维度展示平均分、分数分布和通过率;分类型维度展示各标签的占比和整体通过率。可快速对比不同维度的得分情况。
  • 数据详情 — 逐条展示评测样本的打分明细,包括输入 prompt、模型输出(推理结果集为已上传的 output,评测数据集为在线推理结果)、参考答案以及各维度的打分和 AI 裁判给出的判定理由。支持按维度筛选和按通过/未通过筛选,便于定位模型表现不佳的样本。

下一步