跳转到主要内容
数据集

创建数据集

上传训练数据或评测数据到千问云,用于模型微调或模型评测。

本指南介绍如何在千问云控制台中创建数据集。

前提条件

  • 一个可访问控制台的千问云账号。
  • 已准备好数据文件。训练集使用 .jsonl.zip 格式,评测集使用 .jsonl 格式。格式要求请参见数据集概览

创建训练集

1

打开数据集页面

前往数据集页面,点击创建数据集
2

选择数据集类型

选择训练集
3

输入数据集名称

为数据集提供一个描述性名称。
4

选择任务类型

根据微调目标选择任务类型:
任务类型说明
文本生成用于文本类模型的微调
视觉理解用于视觉理解模型的微调
图生视频(首帧)用于图生视频模型的首帧微调
图生视频(首尾帧)用于图生视频模型的首尾帧微调
5

选择微调算法

根据任务类型选择微调算法:
  • 文本生成:SFT(监督微调)、DPO(直接偏好优化)、CPT(持续预训练)
  • 视觉理解 / 图生视频:SFT
6

上传文件

将文件拖放到上传区域或点击浏览。
  • 文本生成:.jsonl 格式(每文件最大 200 MB,最多 10 个文件)
  • 视觉理解 / 图生视频:.zip 格式
图生视频任务还支持独立上传验证集.zip 格式)。
7

提交

根据任务类型和算法,提交方式不同:
  • 文本生成 SFT / DPO:可选择存为草稿(之后发布)或立即发布
  • 其他(文本生成 CPT、视觉理解、图生视频):仅支持立即发布
选择存为草稿后,数据集处于草稿状态,必须先发布才能在微调任务中使用。详见发布数据集。文本生成 CPT、视觉理解和图生视频任务提交后直接发布,无需单独发布。
创建页面右侧面板显示文件格式要求和所选算法的示例文件下载链接。

创建评测集

1

打开数据集页面

前往数据集页面,点击创建数据集
2

选择数据集类型

选择评测集
3

输入数据集名称

为数据集提供一个描述性名称。
4

上传文件

上传 JSONL 格式文件(.jsonl),每行包含 prompt(问题)和 completion(参考答案)字段。
5

提交

点击立即发布创建数据集,发布后即可在评测任务中使用。

下一步