跳转到主要内容
微调

超参数参考

千问云微调超参数的参考说明与调参建议。

超参数控制模型在微调中的学习方式。创建微调任务时,选择模型后自动显示超参数配置表(参数 / 值 / 范围 / 提示),各参数已设置为优化后的默认值。您可以根据需要调整,点击恢复默认可随时重置。
超参数的默认值和取值范围因所选模型不同而变化。下表为通用参数说明,实际值以控制台显示为准。

通用参数

控制台名称说明
批次大小每步处理的训练样本数。值越大稳定性越好,但需要更多内存。
学习率控制权重更新的幅度。过大导致不稳定,过小导致收敛过慢。
循环次数完整遍历训练数据集的次数。次数越多,训练时间和成本越高。
验证步数两次验证评估之间的训练步数。值越低指标越频繁,但会拖慢训练。
学习率调整策略训练期间调整学习率的策略(Linear / Cosine / Inverse Sqrt)。
序列长度单个训练样本的最大 Token 长度。超过此长度的样本将被丢弃。
学习率预热比例用于学习率预热的训练步数比例。预热有助于稳定早期训练。
权重衰减L2 正则化强度。有助于防止过拟合,维持泛化能力。

LoRA 专属参数

以下参数仅在 LoRA 训练模式下可用。选择全参训练时不显示。
控制台名称说明
LoRa秩值LoRA 适配器矩阵的秩。值越高容量越大,但计算成本也越高。
LoRa阿尔法LoRA 更新的缩放因子。控制适配器相对于基础模型的影响程度。
LoRa丢弃率LoRA 层的 Dropout 率。有助于防止适配器权重过拟合。

视觉模型专属参数

对视觉理解模型(如 Qwen-VL 系列),控制台还会显示以下参数:
控制台名称说明
是否冻结VIT是否冻结视觉编码器参数。冻结可加速训练、降低显存,适合仅优化语言理解部分的场景。
VIT 学习率视觉编码器的学习率。未冻结 VIT 时生效,通常与语言部分学习率保持一致或更低。

参数适用范围

参数SFTDPOCPTLoRA全参
通用参数(批次大小 ~ 权重衰减)适用适用适用适用适用
LoRA 专属参数适用适用适用
CPT 仅支持全参训练,因此 LoRA 相关参数不适用于 CPT 任务。

调参建议

  • 从默认值开始。 默认值适用于大多数场景。仅在初始结果不理想时才调整参数。
  • 谨慎调整学习率。 如果训练 loss 不下降,尝试增大学习率。如果 loss 不稳定或剧烈波动,则降低学习率。
  • 监控验证指标。 使用任务详情页的指标标签页观察过拟合——当验证 loss 上升而训练 loss 持续下降时即为过拟合。
  • 小数据集增加 epoch。 训练样本较少时,更多 epoch 可以让模型有更多机会学习规律。
  • 大学习率使用预热。warmup_ratio 设为 0.05 -- 0.1 有助于避免早期训练的不稳定。

相关文档