跳转到主要内容
评测

模型评测概览

通过千问云的模型评测功能,从多维度量化模型表现,支持 LLM 自动打分与人工标注两种方式。

模型评测用于从多维度量化模型的输出质量。您可以在模型评测控制台页面创建评测维度和评测任务。

核心概念

模型评测由两个子模块组成:
  • 评测维度 — 定义"用什么标准打分"。支持 LLM 自动打分(数值型 / 分类型)和人工标注三种类型。
  • 评测任务 — 选择评测维度 + 数据集 + 待评测模型,执行评测并查看结果。

评测流程

1

定义评测维度

创建一个或多个评测维度,选择维度类型、裁判模型和打分模板。参见评测维度
2

准备评测数据

数据集中创建评测集类型的数据集并发布。
3

创建评测任务

选择数据来源、评测模型和评测维度,提交任务。参见评测任务
4

查看评测结果

在任务列表中查看得分、Token 用量等指标,点击详情查看每条样本的打分明细。

计费说明

模型评测的费用由两部分组成:
费用类型是否计费说明
被评测模型的推理费用使用"评测数据集"作为数据来源时,系统会调用被评测模型执行推理,按 Token 计费。使用"推理结果集"时不产生此费用。
裁判模型的评分费用限时免费LLM 类型评测维度(数值型、分类型)的裁判模型打分过程目前限时免费。

下一步

模型评测概览 - 千问云