成本优化 - 千问 AI 平台

千问 AI 平台各模态采用不同的计费方式：文本模型按 token 计费，图像生成按图片数量计费，视频生成按输出时长计费，TTS 按字符数计费，ASR 按音频时长计费。本文介绍多种实用的降本策略，适用于所有模态，且不会影响输出质量。各策略可单独使用，也可组合使用以获得更大的成本优势。

优化 API 用量

最直接的降本方式是减少每个任务的资源消耗：

合并 API 调用：如果需要发送多个小请求，可以合并为一次调用。例如，在一个 prompt 中同时对十个条目做分类，而不是发送十次单独的请求。
精简 prompt：删除系统 prompt 中的冗余指令，将对话历史限制在最近几轮，并设置 max_tokens 防止输出过长。
按任务复杂度选择模型：仅在确实需要高级推理能力时使用高性能模型（qwen3.7-max）。对于分类、信息提取或摘要等简单任务，轻量级模型（如 qwen3.5-flash）即可胜任，费用仅为前者的一小部分。模型能力对比详见模型概览。

这些做法通常也能提升响应速度。更多延迟优化技巧请参阅延迟优化。

图像生成

视频生成

迭代阶段使用短时长、低分辨率（480P/720P）。大多数模型要求最少 5 秒；wan2.6 模型支持最短 2 秒。仅在最终输出时使用高分辨率（如 15 秒 1080P）。
预览和社交媒体内容通常 480P 或 720P 即可，非必要不选 1080P。
多次生成时复用参考图片和视频，避免重复上传。

语音

批量调用仅适用于文本生成模型。如果您的任务不需要实时响应，批量调用可节省 50% 的 token 费用。您只需将请求打包为 JSONL 文件，作为单个作业提交，处理完成后下载结果——通常在 24 小时内完成。常见应用场景：

支持的模型：qwen-max、qwen-plus、qwen-flash、qwen-turbo。开始使用批量调用

上下文缓存仅适用于文本和视觉模型。当多个请求共享相同的前缀内容（如长系统 prompt、参考文档或对话历史）时，上下文缓存可降低输入 token 费用。它避免了对重复内容的冗余计算，同时提升速度和降低成本。千问 AI 平台提供三种缓存模式：

批量调用和上下文缓存的折扣不能在同一请求中叠加使用。

以下价格为目录价。具体优惠活动及折扣价格请前往模型市场查看。

以下示例展示了使用 qwen3.5-plus 处理 1000 万输入 token + 500 万输出 token 的假设场景下，各策略的费用对比：

实际节省金额取决于缓存命中率、prompt 结构和模型选择。完整价格表请参阅定价。

下表展示了参数选择对非文本模态费用的影响：

各模态和模型的单价详见定价。