在千问云控制台中监控、管理和部署微调任务。
创建微调任务后,使用 千问云控制台监控进度、查看结果并部署训练好的模型。
微调列表页面展示您的所有任务。使用顶部的筛选器按状态缩小范围。在此您可以:
点击任务名称打开详情页,包含四个标签页:
查看完整的训练配置——基模型、超参数、数据集引用和 Token 消耗。使用此标签页核实提交的信息。
通过图表监控训练质量:
查看原始训练日志,用于调试失败或跟踪详细进度。
在此管理已保存的检查点。每个检查点显示保存时的 epoch、发布状态和剩余 TTL。点击发布将检查点作为自定义模型发布,以便部署。
要使用检查点,必须先发布:
自定义模型在创建部署之前无法通过 API 调用。发布检查点后:
任务列表
微调列表页面展示您的所有任务。使用顶部的筛选器按状态缩小范围。在此您可以:
- 点击任务名称查看详情页。
- 对已完成的任务点击去部署创建部署。
- 点击删除移除任务及其关联数据。
任务详情页
点击任务名称打开详情页,包含四个标签页:
详情标签页
查看完整的训练配置——基模型、超参数、数据集引用和 Token 消耗。使用此标签页核实提交的信息。
指标标签页
通过图表监控训练质量:
- 训练 loss:应随模型改进逐步下降。
- 验证 loss:如果与训练 loss 发生偏离,说明模型出现过拟合。
- 准确率:训练集和验证集的 Token 级别准确率。
日志标签页
查看原始训练日志,用于调试失败或跟踪详细进度。
输出标签页
在此管理已保存的检查点。每个检查点显示保存时的 epoch、发布状态和剩余 TTL。点击发布将检查点作为自定义模型发布,以便部署。
发布检查点
要使用检查点,必须先发布:
- 前往任务详情页的输出标签页。
- 点击目标检查点旁边的发布。
- 指定模型名称。发布的模型将出现在自定义模型列表中。
部署训练好的模型
自定义模型在创建部署之前无法通过 API 调用。发布检查点后:
- 前往部署页面。
- 点击创建部署并选择您的自定义模型。
- 部署达到运行中状态后,使用其模型代码调用 API。
停止和删除任务
- 停止:取消正在运行的任务。已完成的检查点会保留。
- 删除:移除任务及其关联数据。此操作不可撤销。
任务状态
| 状态 | 说明 |
|---|---|
| Pending | 任务已提交,正在初始化资源。 |
| Running | 训练正在进行中。 |
| Completed | 训练成功完成。 |
| Failed | 训练遇到错误。请查看日志了解详情。 |
| Cancelling | 任务正在取消,等待进行中的操作结束。 |
| Canceled | 任务已被手动取消。 |