在千问云上管理用于微调模型的训练数据集。
数据集是用于在千问云上微调模型的结构化数据文件。您可以在数据集控制台页面创建、上传和管理数据集。
数据集使用 JSONL 格式,包含结构化为
每个数据集最多可上传 10 个文件,每个文件不超过 200 MB。
JSONL 文件的每一行必须包含一个
创建数据集时,它保存为草稿。必须在微调任务中使用之前先发布数据集。详见管理数据集。
数据格式
数据集使用 JSONL 格式,包含结构化为 messages 数组的指令-响应对。此格式用于 SFT(监督微调) 训练。
| 格式 | 最大大小 | 要求 |
|---|---|---|
| JSONL | 200 MB | 必须包含 messages 数组 |
数据格式示例
JSONL 文件的每一行必须包含一个 messages 数组,含有 role 和 content 字段:
assistant 回复中的
<think> 标签为可选。如果希望微调后的模型在最终答案前先输出思维链推理过程,请包含此标签。
