通过千问云的模型评测功能,从多维度量化模型表现,支持 LLM 自动打分与人工标注两种方式。
模型评测用于从多维度量化模型的输出质量。您可以在模型评测控制台页面创建评测维度和评测任务。
模型评测由两个子模块组成:
模型评测的费用由两部分组成:
核心概念
模型评测由两个子模块组成:
- 评测维度 — 定义"用什么标准打分"。支持 LLM 自动打分(数值型 / 分类型)和人工标注三种类型。
- 评测任务 — 选择评测维度 + 数据集 + 待评测模型,执行评测并查看结果。
评测流程
1
定义评测维度
创建一个或多个评测维度,选择维度类型、裁判模型和打分模板。参见评测维度。
2
准备评测数据
在数据集中创建评测集类型的数据集并发布。
3
创建评测任务
选择数据来源、评测模型和评测维度,提交任务。参见评测任务。
4
查看评测结果
在任务列表中查看得分、Token 用量等指标,点击详情查看每条样本的打分明细。
计费说明
模型评测的费用由两部分组成:
| 费用类型 | 是否计费 | 说明 |
|---|---|---|
| 被评测模型的推理费用 | 是 | 使用"评测数据集"作为数据来源时,系统会调用被评测模型执行推理,按 Token 计费。使用"推理结果集"时不产生此费用。 |
| 裁判模型的评分费用 | 限时免费 | LLM 类型评测维度(数值型、分类型)的裁判模型打分过程目前限时免费。 |