定价覆盖范围本页仅列出部分代表性模型的定价。千问云支持的模型远多于此页所列。涉及文档未列出的模型时,可前往模型市场查看完整定价。
不同模型类型的计费方式各异:文本模型按 token 计费,图像生成按张计费,视频生成按秒计费,语音模型按字符数或音频时长计费。
以下价格为目录价。具体优惠活动及折扣价格请前往模型市场查看。
文本生成
按百万 token 计费。支持长上下文的模型采用阶梯定价——单次请求的输入 token 越多,单价越高。
| 模型 | 单次输入 | 输入 | 输出 |
|---|
| qwen3.7-max | 0 – 991K | 12元 | 36元 |
| qwen3.6-max-preview | ≤ 128K | 9元 | 54元 |
| 128K – 256K | 15元 | 90元 |
| qwen3.7-plus | ≤ 256K | 2元 | 8元 |
| 256K – 1M | 6元 | 24元 |
| qwen3.6-flash | ≤ 256K | 1.2元 | 7.2元 |
| 256K – 1M | 4.8元 | 28.8元 |
完整的文本模型定价请参见模型市场。
图像与视频
视觉理解按 token 计费。Qwen 文本生成模型(qwen3.7-plus 等)支持图像输入,按上述相同的 token 价格计费。专用视觉模型有独立定价:
| 模型 | 单次输入 | 输入 | 输出 |
|---|
| qwen3-vl-plus | ≤ 32K | 1元 | 10元 |
| 32K – 128K | 1.5元 | 15元 |
| 128K – 256K | 3元 | 30元 |
| qwen3-vl-flash | ≤ 32K | 0.15元 | 1.5元 |
| 32K – 128K | 0.3元 | 3元 |
| 128K – 256K | 0.6元 | 6元 |
图像和视频输入会自动转换为 token,转换方式因模型而异:
| 模型系列 | 图像转换规则 | 示例(1024×1024) |
|---|
| Qwen(qwen3.7-plus 等) | 每 32×32 像素 1 个 token | ≈ 256 token |
| Qwen-VL(qwen3-vl 等) | 每 32×32 像素 1 个 token | ≈ 256 token |
| Qwen3.5-Omni | 每 32×32 像素 1 个 token | ≈ 256 token |
| Qwen3-Omni-Flash | 每 32×32 像素 1 个 token | ≈ 256 token |
视频 token 数 = 采样帧数 × 每帧 token 数。详见 Token 计算 →。
图像生成按张计费(与分辨率无关),视频生成按输出视频时长(秒)计费。
图像生成
| 模型 | 单张价格 |
|---|
| qwen-image-2.0-pro | 0.5元 |
| qwen-image-2.0 | 0.2元 |
| qwen-image-edit | 0.3元 |
| wan2.6-t2i | 0.20元 |
| wan2.6-image | 0.20元 |
| z-image-turbo | 0.1元(关闭提示词改写)/ 0.2元(开启) |
视频生成
| 模型 | 每秒价格 |
|---|
| wan2.6-t2v | 0.6元 |
| wan2.6-i2v | 0.6元 |
| wan2.6-i2v-flash | 0.3元 |
完整的图像和视频模型定价请参见模型市场。
音频与语音
文本转语音
按每 10,000 个输入字符计费。
| 模型 | 每万字符价格 |
|---|
| cosyvoice-v3-plus | 2元 |
| cosyvoice-v3-flash | 1元 |
| qwen3-tts-flash | 0.8元 |
语音转文本
按音频输入时长(秒)计费。
| 模型 | 每秒价格 |
|---|
| fun-asr | 0.00022元 |
| fun-asr-realtime | 0.00033元 |
| qwen3-asr-flash | 0.00022元 |
语音对话
Qwen-Omni 是一个多模态模型,可在单次调用中处理文本、音频和图像/视频。各模态的价格详见下表。
按百万 token 计费,不同模态费率不同。
Token 转换规则
| 输入类型 | 转换比例 |
|---|
| 文本 | 标准分词器 |
| 音频输入 | ≈ 7 token/秒(Qwen3.5-Omni)或 12.5 token/秒(Qwen3-Omni-Flash)或 25 token/秒(Qwen-Omni-Turbo) |
| 音频输出 | ≈ 12.5 token/秒(Qwen3.5-Omni)或 12.5 token/秒(Qwen3-Omni-Flash) |
| 图像/视频 | 参见上方理解章节 |
qwen3.5-omni 定价
每百万 token 价格:
| 模型 | 文本/图像/视频输入 | 音频输入 | 文本输出 | 文本+音频输出 |
|---|
| qwen3.5-omni-plus | 7元 | 53元 | 40元 | 213元 |
| qwen3.5-omni-flash | 2.2元 | 18元 | 13.3元 | 72元 |
完整的语音模型定价请参见模型市场。
向量化与重排序
按百万输入 token 计费(输出不计费)。多模态向量化模型的图像和文本输入可能有不同费率。向量化模型的图像/视频 token 转换由内部处理——请查看 API 响应中的 usage 字段获取实际 token 数。
| 模型 | 模态 | 每百万 token 价格 |
|---|
| text-embedding-v4 | 文本 | 0.5元 |
| tongyi-embedding-vision-plus | 全部 | 0.5元 |
| tongyi-embedding-vision-flash | 图像/视频 | 0.15元 |
| 文本 | 0.15元 |
| qwen3-rerank | 文本 | 0.5元 |
完整的向量化与重排序模型定价请参见模型市场。
内置工具
部分内置工具除模型 token 费用外,还会收取额外的调用费。
Function calling 和 MCP 不收取工具费——工具描述按输入 token 计费。
降低成本
- Batch API — 异步任务享 5 折优惠。了解详情 →
- 上下文缓存 — 复用长 prompt,降低费用。了解详情 →
- 模型选择 — 根据任务复杂度选择合适的模型。模型对比 →
更多计算示例和进阶策略,请参见成本优化 →。
了解更多