跳转到主要内容
数据集

数据集概览

在千问云上管理用于微调模型的训练数据集。

数据集是用于在千问云上微调模型的结构化数据文件。您可以在数据集控制台页面创建、上传和管理数据集。

数据格式

数据集使用 JSONL 格式,包含结构化为 messages 数组的指令-响应对。此格式用于 SFT(监督微调) 训练。
格式最大大小要求
JSONL200 MB必须包含 messages 数组
每个数据集最多可上传 10 个文件,每个文件不超过 200 MB。

数据格式示例

JSONL 文件的每一行必须包含一个 messages 数组,含有 rolecontent 字段:
{
  "messages": [
    {"role": "system", "content": "You are a helpful assistant"},
    {"role": "user", "content": "Who painted the human body during the Renaissance?"},
    {"role": "assistant", "content": "<think>Optional model thinking</think>The Renaissance was a period of rebirth in art, culture, and scholarship. Many artists depicted the human form during this era."}
  ]
}
assistant 回复中的 <think> 标签为可选。如果希望微调后的模型在最终答案前先输出思维链推理过程,请包含此标签。

数据集工作流

创建数据集时,它保存为草稿。必须在微调任务中使用之前先发布数据集。详见管理数据集

下一步

数据集概览 - 千问云