评测任务 - 千问云

评测任务将评测维度应用于具体的数据和模型，生成量化的评测结果。您可以在评测任务控制台页面创建和管理评测任务。

创建评测任务

进入创建页面

在评测任务列表页，点击创建。系统会自动生成任务名称（格式：eval_YYYYMMDD_HHMMSS），您也可以自行修改。

选择数据来源

从下拉框中选择数据来源类型。两种数据来源的上传入口与后续配置不同：

数据来源	上传入口	说明	数据格式（JSONL）	适用场景
评测数据集	在数据集管理页面创建并发布	系统先用评测模型对数据集执行推理，再用评测维度打分	Prompt（问题）+ Completion（参考答案）	首次评测、对比多个模型
推理结果集	在模型评测页面上传	直接用评测维度打分，跳过推理步骤	Prompt + Output（模型输出），Completion（参考答案）可选	已有推理结果、降低推理成本

选择数据并配置

根据所选数据来源，页面展示的配置项不同：

评测数据集：从下拉框中选择一个已发布的评测数据集，然后选择用于对数据集执行推理的评测模型。点击管理数据集可跳转到数据集管理页面创建或发布数据集。
推理结果集：上传或选择已有的推理结果集，无需选择评测模型（推理结果已包含模型输出），直接进入下一步选择评测维度。

建议的评测数据量：50-100 条用于小规模验证配置是否正确，200-500 条用于正式评测以获得可靠的统计结果，500+ 条用于全面评测覆盖各种边界情况。

选择评测维度

选择一个或多个评测维度。点击管理评测维度可跳转到评测维度管理页面。

确认计费详情

展开计费详情查看预估费用。评测打分过程免费，推理过程按 Token 计费。

提交任务

点击创建提交评测任务。

评测任务列表展示以下信息：

点击操作列的详情，进入评测结果页面，包含两个标签页：

指标 — 汇总各评测维度的整体表现。数值型维度展示平均分、分数分布和通过率；分类型维度展示各标签的占比和整体通过率。可快速对比不同维度的得分情况。
数据详情 — 逐条展示评测样本的打分明细，包括输入 prompt、模型输出（推理结果集为已上传的 output，评测数据集为在线推理结果）、参考答案以及各维度的打分和 AI 裁判给出的判定理由。支持按维度筛选和按通过/未通过筛选，便于定位模型表现不佳的样本。