跳转到主要内容
微调

模型微调概览

通过千问云的 SFT、DPO、CPT 微调 Qwen 模型,支持 LoRA 和全参训练模式。

模型微调使用您的数据在基础模型上训练,让模型学会特定领域的知识、任务执行方式或输出风格。微调后的模型需要部署后才能调用。
建议先尝试提示词工程或工具调用来优化应用。微调需要准备训练数据、消耗训练费用且迭代速度较慢,通常作为提升模型表现的最后手段。

前提条件

创建微调任务前,您需要:

训练方式

训练方式核心目标典型场景
CPT(持续预训练)补知识——注入领域知识金融术语、医疗病理、法律判例
SFT(监督微调)学做事——学会执行任务客服流程、编程范式、工具调用
DPO(直接偏好优化)做得更好——对齐人类偏好拒绝有害建议、回答更简洁、评价更客观
三种方式递进互补,推荐流程: CPT(可选)→ SFT → DPO(可选)
  • CPT 用无标签的领域语料做自监督学习(预测下一个词),让模型掌握专业词汇和事实。通常在 SFT 之前进行。
  • SFT 用标注好的输入/输出对做监督学习,教模型对话格式和任务执行能力。大多数场景仅需 SFT。
  • DPO 用正负样本对比学习,增大好答案概率、降低坏答案概率。在 SFT 之后作为对齐的最后一步。

训练模式

训练模式说明适用场景支持的训练方式
LoRA(高效训练)冻结基础模型,仅训练低秩适配器权重。速度快、成本低优化特定场景效果,对训练时间和成本敏感SFT、DPO
全参训练更新模型全部参数。训练时间更长、成本更高。CPT 仅支持此模式需要模型学习全新能力,追求全局效果最优SFT、DPO、CPT
大多数 SFT/DPO 场景使用 LoRA 即可。

支持的模型

模型类别模型系列支持的训练方式
文本生成Qwen 系列SFT / DPO / CPT
视觉理解Qwen3-VL、Qwen2.5-VL 系列SFT
图生视频Wan-I2V(万相)系列SFT
各训练方式和训练模式下可选的具体模型请在创建微调任务时查看。 您也可以选择之前微调过的自定义模型作为基础模型进行迭代训练。创建微调任务时,在基础模型选择器中切换到自定义模型标签页,即可选择您自己的模型。

数据格式

数据格式根据训练方式和任务类型不同。各算法及任务类型的格式示例和详细要求请参见数据集概览 核心字段速览:
训练方式 / 任务类型核心字段
SFT(文本)messages(含 system/user/assistant 多轮对话)
DPO(文本)messages(上下文)+ chosen + rejected(偏好对)
CPT(文本)text(纯文本)
视觉理解messagescontent 为数组,含 image / video(视频支持路径模式和图片帧列表模式,仅 qwen3.5 及以后的 VL 模型支持)
图生视频data.jsonl + 图片 + 视频,首帧与首尾帧目录结构不同

数据要求

训练方式推荐数据量输入格式
CPT一千万 Token无标签的领域文本
SFT1,000 条高质量的输入-输出对
DPO100 组同一输入下的正负偏好对
如果微调后模型表现不佳,最直接的改进方法是收集更多高质量数据。如果短期难以收集足够数据,建议先用 RAG 应用积累数据,再考虑微调。各场景的数据比例应符合实际使用比例,避免某类数据过多导致模型偏向该类特征。质量优先于数量——少量精准的训练数据优于大量低质量数据。

计费

按训练消耗的 Token 数计费: 训练费用 = 训练数据 Token 总数 × 循环次数 × 训练单价 各模型类别的训练单价、计费公式与计费示例详见微调训练计费 创建任务时,控制台底部显示预估训练费用,点击计算详情可查看训练 Token 总数、循环次数和训练单价明细。微调后的模型需部署后才能调用,部署和调用产生额外费用。

检查点与输出

训练过程中,控制台实时显示训练 Loss验证 Loss 曲线,帮助判断训练效果。训练完成后系统生成若干检查点(Checkpoint),在任务详情页发布检查点后,它将成为自定义模型,可用于部署或作为基础模型迭代训练。检查点保存在云存储中,暂不支持下载。

下一步

模型微调概览 - 千问云