模型评测概览

模型评测用于从多维度量化模型的输出质量。您可以在模型评测控制台页面创建评测维度和评测任务。

核心概念

模型评测由两个子模块组成：

定义评测维度

创建一个或多个评测维度，选择维度类型、裁判模型和打分模板。参见评测维度。

准备评测数据

在数据集中创建评测集类型的数据集并发布。

创建评测任务

选择数据来源、评测模型和评测维度，提交任务。参见评测任务。

查看评测结果

在任务列表中查看得分、Token 用量等指标，点击详情查看每条样本的打分明细。

模型评测的费用由两部分组成：

费用类型	是否计费	说明
被评测模型的推理费用	是	使用"评测数据集"作为数据来源时，系统会调用被评测模型执行推理，按 Token 计费。使用"推理结果集"时不产生此费用。
裁判模型的评分费用	限时免费	LLM 类型评测维度（数值型、分类型）的裁判模型打分过程目前限时免费。