超参数控制模型在微调中的学习方式。创建微调任务时,选择模型后自动显示超参数配置表(参数 / 值 / 范围 / 提示),各参数已设置为优化后的默认值。您可以根据需要调整,点击恢复默认可随时重置。
超参数的默认值和取值范围因所选模型不同而变化。下表为通用参数说明,实际值以控制台显示为准。
通用参数
| 控制台名称 | 说明 |
|---|
| 批次大小 | 每步处理的训练样本数。值越大稳定性越好,但需要更多内存。 |
| 学习率 | 控制权重更新的幅度。过大导致不稳定,过小导致收敛过慢。 |
| 循环次数 | 完整遍历训练数据集的次数。次数越多,训练时间和成本越高。 |
| 验证步数 | 两次验证评估之间的训练步数。值越低指标越频繁,但会拖慢训练。 |
| 学习率调整策略 | 训练期间调整学习率的策略(Linear / Cosine / Inverse Sqrt)。 |
| 序列长度 | 单个训练样本的最大 Token 长度。超过此长度的样本将被丢弃。 |
| 学习率预热比例 | 用于学习率预热的训练步数比例。预热有助于稳定早期训练。 |
| 权重衰减 | L2 正则化强度。有助于防止过拟合,维持泛化能力。 |
LoRA 专属参数
以下参数仅在 LoRA 训练模式下可用。选择全参训练时不显示。
| 控制台名称 | 说明 |
|---|
| LoRa秩值 | LoRA 适配器矩阵的秩。值越高容量越大,但计算成本也越高。 |
| LoRa阿尔法 | LoRA 更新的缩放因子。控制适配器相对于基础模型的影响程度。 |
| LoRa丢弃率 | LoRA 层的 Dropout 率。有助于防止适配器权重过拟合。 |
视觉模型专属参数
对视觉理解模型(如 Qwen-VL 系列),控制台还会显示以下参数:
| 控制台名称 | 说明 |
|---|
| 是否冻结VIT | 是否冻结视觉编码器参数。冻结可加速训练、降低显存,适合仅优化语言理解部分的场景。 |
| VIT 学习率 | 视觉编码器的学习率。未冻结 VIT 时生效,通常与语言部分学习率保持一致或更低。 |
参数适用范围
| 参数 | SFT | DPO | CPT | LoRA | 全参 |
|---|
| 通用参数(批次大小 ~ 权重衰减) | 适用 | 适用 | 适用 | 适用 | 适用 |
| LoRA 专属参数 | 适用 | 适用 | — | 适用 | — |
CPT 仅支持全参训练,因此 LoRA 相关参数不适用于 CPT 任务。
调参建议
- 从默认值开始。 默认值适用于大多数场景。仅在初始结果不理想时才调整参数。
- 谨慎调整学习率。 如果训练 loss 不下降,尝试增大学习率。如果 loss 不稳定或剧烈波动,则降低学习率。
- 监控验证指标。 使用任务详情页的指标标签页观察过拟合——当验证 loss 上升而训练 loss 持续下降时即为过拟合。
- 小数据集增加 epoch。 训练样本较少时,更多 epoch 可以让模型有更多机会学习规律。
- 大学习率使用预热。 将
warmup_ratio 设为 0.05 -- 0.1 有助于避免早期训练的不稳定。
相关文档