跳转到主要内容
文本生成

文本生成模型

选择适用于 AI 智能体、聊天机器人、文档处理等场景的模型。

使用 OpenClaw、Claude Code 或 Hermes?

推荐 qwen3.6-plus——能力与成本均衡,完整工具调用支持,1M 上下文适合大型代码库。Token Plan 用户还可选择 glm-5.1MiniMax-M2.5,均针对智能体工作流进行了优化。

从闭源模型迁移到千问云?

如果你正在使用 GPT、Claude 或 Gemini,可参考下表按能力档选择千问云对位模型。
闭源模型代表千问云推荐
高能力GPT-5.5、Claude Opus 4.7、Gemini 3.1 Proqwen3.6-max-preview
平衡GPT-5.4、Claude Sonnet 4.6、Gemini 3 Proqwen3.6-plusdeepseek-v4-proglm-5.1
轻量低成本GPT-5.4-mini、Claude Haiku 4.5、Gemini 3.1 Flashqwen3.6-flashdeepseek-v4-flashMiniMax-M2.5

其他应用场景

聊天机器人、内容生成、摘要总结、文档处理——首选 qwen3.6-plus,能力与成本均衡,支持 1M 上下文和完整功能集。验证效果后,可尝试 qwen3.6-flash 降低成本——接近旗舰水平,上下文长度和功能一致。如需最强推理能力,可选择 qwen3.6-max-preview,但成本较高。

上下文窗口

1M token 约等于 75 万字或 10 本书。
  • 长文档或大型代码库 → qwen3.6-plus / qwen3.6-flash(1M)
  • 常规任务 → 128k–256k 足够

思考模式

适用于多步数学推导、代码调试、架构设计、法律条文交叉引用等需要逐步推理的场景。 通过 enable_thinking 开关控制。所有 Qwen3+ 模型均支持——大多数为混合模式,可按请求切换。

函数调用与内置工具

让模型执行操作:查天气、查数据库、预订会议。
  • 函数调用(自定义工具,模型调用):所有通用模型均支持
  • 内置工具(联网搜索、代码解释器、网页抓取等,无需复杂配置)

结构化输出

返回合法 JSON——例如从文本中提取姓名和日期。 支持模型:Qwen3.6、Qwen3.5、Qwen3、Qwen3-Coder、Qwen2.5 及旧版(Plus/Max/Flash/Turbo)——非思考模式下可用。

批量推理

适用于大量请求且对延迟要求不高的场景,可降低请求成本。

推荐模型

模型上下文思考模式函数调用内置工具结构化输出批量显式缓存隐式缓存会话缓存
qwen3.6-max-preview256k
qwen3.6-plus1M
qwen3.6-flash1M
deepseek-v4-pro1M
deepseek-v4-flash1M
kimi-k2.6256k
glm-5.1198k
MiniMax-M2.5192k

全部模型

模型上下文最大输出思考预算函数调用内置工具结构化输出批量Token Plan显式缓存隐式缓存会话缓存
qwen3.6-plus1M64k80k
qwen3.6-plus-2026-04-021M64k80k
qwen3.6-flash1M64k128k
qwen3.6-flash-2026-04-161M64k128k
qwen3.6-max-preview256k64k128k
qwen3.6-35b-a3b256k64k128k
qwen3.6-27b256k64k128k
模型上下文最大输出思考预算函数调用内置工具结构化输出批量Token Plan显式缓存隐式缓存会话缓存
qwen3.5-plus1M64k80k
qwen3.5-plus-2026-02-151M64k80k
qwen3.5-plus-2026-04-201M64k80k
qwen3.5-flash1M64k80k
qwen3.5-flash-2026-02-231M64k80k
qwen3.5-397b-a17b256k64k80k
qwen3.5-122b-a10b256k64k80k
qwen3.5-27b256k64k80k
qwen3.5-35b-a3b256k64k80k
通过同一 API 可用的非 Qwen 模型。
模型上下文最大输出思考预算函数调用内置工具结构化输出批量Token Plan显式缓存隐式缓存会话缓存
deepseek-v4-pro1M384k *384k *
deepseek-v4-flash1M384k *384k *
glm-5.1198k128k128k
kimi-k2.6256k96k80k
MiniMax-M2.5192k32k32k **
* DeepSeek-V4 的 384k(393,216 Token)限制由思考和最终输出共享。** MiniMax-M2.5 的 32k 限制由 CoT 和最终输出共享。
上一代模型。新项目建议使用 Qwen3.6。

Qwen3

模型上下文最大输出思考预算函数调用内置工具结构化输出批量显式缓存隐式缓存会话缓存
qwen3-max256k64k80k
qwen3-max-2026-01-23256k64k80k
qwen3-max-preview256k64k80k
qwen3-max-2025-09-23256k64k
qwen3-235b-a22b128k16k38k
qwen3-235b-a22b-thinking-2507128k32k80k
qwen3-235b-a22b-instruct-2507128k32k
qwen3-next-80b-a3b-thinking128k32k80k
qwen3-next-80b-a3b-instruct128k32k
qwen3-32b128k16k38k
qwen3-30b-a3b128k16k38k
qwen3-30b-a3b-thinking-2507128k32k80k
qwen3-30b-a3b-instruct-2507128k32k
qwen3-14b128k8k38k
qwen3-8b128k8k38k
qwen3-4b128k8k38k
qwen3-1.7b32k8k30k
qwen3-0.6b32k8k30k

Qwen3-Coder

模型上下文最大输出函数调用内置工具结构化输出批量显式缓存隐式缓存会话缓存
qwen3-coder-plus1M64k
qwen3-coder-plus-2025-09-231M64k
qwen3-coder-plus-2025-07-221M64k
qwen3-coder-flash1M64k
qwen3-coder-flash-2025-07-281M64k
qwen3-coder-next256k64k
qwen3-coder-480b-a35b-instruct256k64k
qwen3-coder-30b-a3b-instruct256k64k

Qwen2.5(开源)

模型上下文最大输出函数调用内置工具结构化输出批量显式缓存隐式缓存会话缓存
qwen2.5-omni-7b32k8k
qwen2.5-72b-instruct32k8k
qwen2.5-72b-instruct-1m1M8k
qwen2.5-32b-instruct32k8k
qwen2.5-14b-instruct32k8k
qwen2.5-7b-instruct32k8k
qwen2.5-3b-instruct32k8k
qwen2.5-1.5b-instruct32k8k
qwen2.5-0.5b-instruct32k8k

QwQ / QVQ(开源)

模型上下文最大输出思考预算函数调用内置工具结构化输出批量显式缓存隐式缓存会话缓存
qwq-32b128k8k32k
qwq-32b-preview32k16k

Qwen-Coder(旧版,qwen2.5之前)

模型上下文最大输出函数调用内置工具结构化输出批量显式缓存隐式缓存会话缓存
qwen-coder-plus128k8k
qwen-coder-plus-latest128k8k
qwen-coder-plus-2024-11-06128k8k
qwen-coder-turbo128k8k
qwen-coder-turbo-latest128k8k
qwen-coder-turbo-2024-09-19128k8k

Qwen2.5-Coder(开源)

模型上下文最大输出函数调用内置工具结构化输出批量显式缓存隐式缓存会话缓存
qwen2.5-coder-32b-instruct128k8k
qwen2.5-coder-14b-instruct128k8k
qwen2.5-coder-7b-instruct128k8k
qwen2.5-coder-3b-instruct32k8k
qwen2.5-coder-1.5b-instruct32k8k
qwen2.5-coder-0.5b-instruct32k8k

翻译

模型上下文思考模式函数调用内置工具结构化输出批量
qwen-mt-plus16k
qwen-mt-turbo16k
qwen-mt-flash16k
qwen-mt-lite16k

千问Long(长上下文)

模型上下文思考模式函数调用内置工具结构化输出批量
qwen-long10M
qwen-long-latest10M
qwen-long-2025-01-2510M

角色扮演

模型上下文思考模式函数调用内置工具结构化输出批量
qwen-plus-character32k
qwen-plus-character-ja32k
qwen-flash-character8k

旧版Qwen

模型上下文最大输出思考预算函数调用内置工具结构化输出批量显式缓存隐式缓存会话缓存
qwen-plus1M32k80k
qwen-plus-latest1M32k80k
qwen-plus-2025-12-011M32k80k
qwen-plus-2025-09-111M32k80k
qwen-plus-2025-07-281M32k80k
qwen-plus-2025-07-14128k16k80k
qwen-plus-2025-04-28128k16k80k
qwen-plus-2025-01-25128k8k
qwen-plus-2025-01-121M32k80k
qwen-plus-2024-12-201M32k80k
qwen-max32k8k
qwen-max-latest32k8k
qwen-max-2025-01-2532k8k
qwen-max-2024-09-1932k8k
qwen-max-2024-04-288k2k
qwen-flash1M32k80k
qwen-flash-2025-07-281M32k80k
qwen-turbo128k16k38k
qwen-turbo-latest128k16k38k
qwen-turbo-2025-04-28128k16k38k
qwen-turbo-2024-11-011M8k
qwen-turbo-2025-02-111M8k
qwen-turbo-2025-07-15128k16k38k
qwq-plus128k8k32k
qwq-plus-latest128k8k32k
qwq-plus-2025-03-05128k8k32k
qvq-max128k8k80k
qvq-max-latest128k8k80k
qvq-max-2025-03-25128k8k80k
qwen-omni-turbo32k2k80k
qwen-omni-turbo-latest32k2k80k
qwen-omni-turbo-2025-03-2632k2k80k

三方模型

模型上下文思考模式函数调用内置工具结构化输出批量显式缓存隐式缓存会话缓存
glm-5198k
glm-4.7198k
glm-4.6198k
glm-4.5198k
glm-4.5-air198k
MiniMax-M2.1200k
kimi-k2.5256k
kimi-k2-thinking256k
Moonshot-Kimi-K2-Instruct256k
deepseek-v3.2128k
deepseek-v3.2-exp128k
deepseek-v3.1128k
deepseek-v3128k
deepseek-r1128k
deepseek-r1-0528128k
deepseek-r1-distill-llama-70b128k
deepseek-r1-distill-qwen-32b128k
deepseek-r1-distill-qwen-14b128k
deepseek-r1-distill-qwen-7b128k
deepseek-r1-distill-qwen-1.5b128k
deepseek-r1-distill-llama-8b128k

了解更多