跳转到主要内容
微调

微调概览

通过千问云的 SFT 和 LoRA 微调 Qwen 模型,提升模型在特定场景下的表现。

微调使用您自己的数据将预训练模型适配到特定场景。相比仅使用提示词工程,微调可以:
  • 提升准确率,在特定领域任务上表现更好
  • 降低延迟,用学习到的行为替代 few-shot 提示
  • 对齐输出,符合人类偏好或品牌风格
  • 替代大模型,用微调后的小模型降低成本

前提条件

创建微调任务前,您需要:

训练方式

千问云上的微调使用 SFT(监督微调)—— 您通过输入/输出对训练模型,让其学习期望的响应。训练数据格式为 ChatML 消息,包含 user/assistant 对话轮次。

训练模式

所有微调任务均使用 LoRA(高效训练),在冻结的基模型之上训练低秩适配器权重。相比全参数训练,该方法速度更快、成本更低。

支持的模型

模型训练方式训练模式
Qwen3-14BSFTLoRA
您也可以选择之前微调过的自定义模型作为基模型进行迭代训练。创建微调任务时,在基模型选择器中切换到自定义模型标签页,即可选择您自己的模型。

数据格式

JSONL 文件的每一行包含一个 ChatML 格式的多轮对话:
{"messages": [
  {"role": "system", "content": "You are a helpful assistant."},
  {"role": "user", "content": "What is fine-tuning?"},
  {"role": "assistant", "content": "Fine-tuning adapts a pre-trained model to a specific task using custom training data."}
]}

数据集建议

  • 规模:微调至少需要几百条高质量样本。通常数千条样本效果更好。
  • 多样性:覆盖模型在生产环境中可能遇到的各类场景。按实际使用比例平衡数据分布。
  • 质量:确保 assistant 回复准确反映您期望的行为。训练数据中的低质量输出会导致模型表现不佳。

下一步