跳转到主要内容
上线准备

成本优化

在保证输出质量的同时,降低文本、图像、视频和语音 API 调用费用

千问云各模态采用不同的计费方式:文本模型按 token 计费,图像生成按图片数量计费,视频生成按输出时长计费,TTS 按字符数计费,ASR 按音频时长计费。本文介绍多种实用的降本策略,适用于所有模态,且不会影响输出质量。各策略可单独使用,也可组合使用以获得更大的成本优势。

优化 API 用量

最直接的降本方式是减少每个任务的资源消耗:
  • 合并 API 调用:如果需要发送多个小请求,可以合并为一次调用。例如,在一个 prompt 中同时对十个条目做分类,而不是发送十次单独的请求。
  • 精简 prompt:删除系统 prompt 中的冗余指令,将对话历史限制在最近几轮,并设置 max_tokens 防止输出过长。
  • 按任务复杂度选择模型:仅在确实需要高级推理能力时使用高性能模型(qwen3.7-max)。对于分类、信息提取或摘要等简单任务,轻量级模型(如 qwen3.5-flash)即可胜任,费用仅为前者的一小部分。模型能力对比详见模型概览
这些做法通常也能提升响应速度。更多延迟优化技巧请参阅延迟优化

优化非文本 API 用量

图像生成
  • 图像生成按图片数量计费,与分辨率无关,但降低分辨率可以缩短生成时间。
  • 控制 n(每次请求生成的图片数量),每张图片单独计费。
  • 如果已有精心编写的 prompt,可在生产环境中关闭 prompt 改写功能(prompt_extend),避免不必要的处理开销。
视频生成
  • 迭代阶段使用短时长、低分辨率(480P/720P)。大多数模型要求最少 5 秒;wan2.6 模型支持最短 2 秒。仅在最终输出时使用高分辨率(如 15 秒 1080P)。
  • 预览和社交媒体内容通常 480P 或 720P 即可,非必要不选 1080P。
  • 多次生成时复用参考图片和视频,避免重复上传。
语音
  • 根据场景选择合适的 TTS 模型:flash 版本是简单旁白最经济的选择,instruct 模型适用于需要情感表达或精细控制的场景。详见语音合成
  • 将多段短文本合并为一次 TTS 调用,避免大量小请求。
  • 使用 ASR 时,提交前压缩音频文件可缩短上传时间。注意 ASR 按音频时长计费,压缩不影响费用。

批量调用

批量调用仅适用于文本生成模型。如果您的任务不需要实时响应,批量调用可节省 50% 的 token 费用。您只需将请求打包为 JSONL 文件,作为单个作业提交,处理完成后下载结果——通常在 24 小时内完成。 常见应用场景:
  • 离线评测与基准测试
  • 批量分类或数据标注
  • 大规模 embedding 生成
支持的模型:qwen-max、qwen-plus、qwen-flash、qwen-turbo。 开始使用批量调用

上下文缓存

上下文缓存仅适用于文本和视觉模型。当多个请求共享相同的前缀内容(如长系统 prompt、参考文档或对话历史)时,上下文缓存可降低输入 token 费用。它避免了对重复内容的冗余计算,同时提升速度和降低成本。 千问云提供三种缓存模式:
模式工作原理缓存命中费用
显式缓存手动标记需要缓存的内容,保证 5 分钟内命中。标准输入价格的 10%
隐式缓存自动生效,无需配置。系统自动识别公共前缀。标准输入价格的 20%
会话缓存专为 Responses API 多轮对话设计。标准输入价格的 10%
开始使用上下文缓存
批量调用和上下文缓存的折扣不能在同一请求中叠加使用。

成本对比

以下示例展示了使用 qwen3.5-plus 处理 1000 万输入 token + 500 万输出 token 的假设场景下,各策略的费用对比:
策略输入费用输出费用合计
标准计费10M x 0.8 = 8元5M x 4.8 = 24元32元
批量调用(5 折)10M x 0.4 = 4元5M x 2.4 = 12元16元
上下文缓存(80% 缓存命中率,隐式缓存)2M x 0.8 + 8M x 0.16 = 2.88元5M x 4.8 = 24元26.88元
实际节省金额取决于缓存命中率、prompt 结构和模型选择。完整价格表请参阅定价

非文本成本优化示例

下表展示了参数选择对非文本模态费用的影响:
模态基准方案优化方案节省方式
图像生成100 次调用,每次 n=4(计费 400 张)100 次调用,每次 n=1(计费 100 张)只生成需要的图片;关闭 prompt 改写
视频生成10 个视频,1080P,每个 15 秒迭代阶段 10 个 720P 5 秒视频 + 最终 2 个 1080P 15 秒视频预览用低分辨率;仅最终版本用高分辨率
TTS10,000 字符,使用 instruct 模型10,000 字符,使用 flash 模型选择满足质量要求的最低成本模型
各模态和模型的单价详见定价

后续阅读