跳转到主要内容
数据集

数据集概览

在千问云上管理用于模型微调和模型评测的数据集。

数据集是用于在千问云上微调和评测模型的结构化数据文件。您可以在数据集控制台页面创建、上传和管理数据集。

数据集类型

种类用途说明
训练集用于模型微调支持 SFT / DPO / CPT 算法,涵盖文本生成、视觉理解、图生视频等任务类型
评测集用于模型评测包含问题和参考答案,用于评估模型输出质量

训练集数据格式

训练集的文件格式根据任务类型不同: 不同任务类型的文件格式、大小和数量限制不同:
训练任务类型支持的算法文件格式大小与数量限制zip 内结构 / 字段
文本生成SFT / DPO / CPT.jsonl最多 10 个文件,单文件最大 200 MB每行一个 JSON,SFT/DPO 为 messages 对话格式,CPT 为 text 纯文本
视觉理解SFT.zip1 个压缩包,最大 2 GBdata.jsonl(最大 20 MB)+ 图片(单张最大 10 MB,支持 BMP/JPEG/PNG/WEBP)
图生视频(首帧)SFT.zip1 个压缩包,最大 4 GBdata.jsonl(20 MB)+ 图片(4096×4096/10 MB)+ 视频(4096×4096/30 MB/20 s,MP4/MOV)
图生视频(首尾帧)SFT.zip1 个压缩包,最大 4 GBdata.jsonl + image/ 子目录(首尾帧图片)+ video/ 子目录(视频),限制同首帧
视觉理解与图生视频的 .zip 包内文件名仅支持英文字符,data.jsonl 必须固定命名。
  • SFT
  • DPO
  • CPT
  • 视觉理解
  • 图生视频
JSONL 每行包含 messages 数组:
{
  "messages": [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "谁在文艺复兴时期描绘了人体?"},
    {"role": "assistant", "content": "<think>思维链推理</think>文艺复兴时期许多艺术家描绘了人体形态。"}
  ]
}
<think> 标签可选。包含此标签可让微调后的模型在回答前输出思维链推理过程。

评测集数据格式

评测集目前仅支持文本生成任务类型,使用 JSONL 格式(.jsonl)。 根据评测任务的数据来源,评测集分为两种类型:
  • 评测数据集:仅包含输入和参考答案。评测时模型基于 prompt 进行在线推理,系统将推理结果与 completion 对比评分。
  • 推理结果集:包含模型已生成的输出(output),completion 为可选字段。评测时跳过在线推理,直接对已有输出评分,可显著降低推理成本。
数据来源类型必需字段说明
评测数据集promptcompletionprompt 为用户问题,completion 为参考答案
推理结果集promptoutputoutput 为模型已生成的输出;completion(参考答案)可选
  • 评测数据集
  • 推理结果集
{"prompt": "什么是机器学习?", "completion": "机器学习是人工智能的一个分支,通过算法让计算机从数据中学习模式和规律。"}
{"prompt": "解释深度学习与传统机器学习的区别", "completion": "深度学习是机器学习的子集,使用多层神经网络自动提取特征..."}
建议至少准备 50 条评测数据。200 条以上可获得统计显著性更高的评测结果。首次使用建议先用 10~20 条样本验证评测配置的正确性。

下一步