通过逐步推理解决复杂任务
Thinking(推理)模型在回答前先进行推理,输出
使用
开启
开启推理后进行 function calling,模型会先推理应调用哪些工具、如何使用返回结果,再生成回答。响应中每次工具调用前都会包含
reasoning_content(Chat Completions / DashScope)或 reasoning_summary_text 事件(Responses API)。模型支持两种推理模式:
- 混合模式:通过
enable_thinking逐请求开关推理。Qwen3.5(默认开启)、Qwen3、Qwen3-VL、Qwen3-Omni(默认关闭)。 - 纯推理模式:始终进行推理,无法关闭。QwQ、
-thinking系列变体。
支持的模型
展开查看完整模型列表
展开查看完整模型列表
Qwen3.6
- Max 系列(混合模式,默认开启):
qwen3.6-max-preview - Plus 系列(混合模式,默认开启):
qwen3.6-plus、qwen3.6-plus-2026-04-02 - Flash 系列(混合模式,默认开启):
qwen3.6-flash、qwen3.6-flash-2026-04-16 - 开源版:
qwen3.6-35b-a3b
Qwen3.5
商业版- Plus 系列(混合模式,默认开启):
qwen3.5-plus、qwen3.5-plus-2026-02-15 - Flash 系列(混合模式,默认开启):
qwen3.5-flash、qwen3.5-flash-2026-02-23
- 混合模式,默认开启:
qwen3.5-397b-a17b、qwen3.5-122b-a10b、qwen3.5-27b、qwen3.5-35b-a3b
Qwen3
商业版- Max 系列(混合模式,默认关闭):
qwen3-max、qwen3-max-2026-01-23、qwen3-max-preview - Plus 系列(混合模式,默认关闭):
qwen-plus、qwen-plus-latest、qwen-plus-2025-04-28及之后的快照版模型 - Flash 系列(混合模式,默认关闭):
qwen-flash、qwen-flash-2025-07-28及之后的快照版模型 - Turbo 系列(混合模式,默认关闭):
qwen-turbo、qwen-turbo-latest、qwen-turbo-2025-04-28及之后的快照版模型
- 混合模式,默认开启:
qwen3-235b-a22b、qwen3-32b、qwen3-30b-a3b、qwen3-14b、qwen3-8b、qwen3-4b、qwen3-1.7b、qwen3-0.6b - 纯推理模式:
qwen3-next-80b-a3b-thinking、qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b-thinking-2507
QwQ(基于 Qwen2.5)
- 纯推理模式:
qwq-plus、qwq-plus-latest、qwq-plus-2025-03-05、qwq-32b
DeepSeek
千问云部署- 混合模式,默认开启:
deepseek-v4-pro、deepseek-v4-flash - 混合模式,默认关闭:
deepseek-v3.2、deepseek-v3.2-exp、deepseek-v3.1 - 纯推理模式:
deepseek-r1、deepseek-r1-0528、DeepSeek-R1 蒸馏模型
- 混合模式,默认关闭:
siliconflow/deepseek-v3.2、siliconflow/deepseek-v3.1-terminus - 纯推理模式:
siliconflow/deepseek-r1-0528
- 混合模式,默认关闭:
vanchin/deepseek-v3.2-think、vanchin/deepseek-v3.1-terminus - 纯推理模式:
vanchin/deepseek-r1
GLM
- 混合模式,默认开启:
glm-5.1、glm-5、glm-4.7、glm-4.6、glm-4.5、glm-4.5-air
Kimi
千问云部署- 混合模式,默认关闭:
kimi-k2.6、kimi-k2.5 - 纯推理模式:
kimi-k2-thinking
- 混合模式,默认开启:
kimi/kimi-k2.6、kimi/kimi-k2.5
MiniMax
千问云部署- 纯推理模式:
MiniMax-M2.5、MiniMax-M2.1
- 纯推理模式:
MiniMax/MiniMax-M2.7、MiniMax/MiniMax-M2.5、MiniMax/MiniMax-M2.1
开启推理
- OpenAI Chat Completions
- OpenAI Responses API
- DashScope
控制推理深度
Token 预算
使用 thinking_budget 限制推理 token 的最大数量。达到上限后,模型会停止推理并立即生成回答。Qwen3(思考模式)、GLM 与 Kimi 模型均支持该参数。仅适用于 Chat Completions 和 DashScope,Responses API 暂不支持。
- OpenAI Chat Completions
- DashScope
Prompt 级控制
开启 enable_thinking: true 后,可在消息中添加 /no_think 跳过当次推理,用 /think 恢复。多条指令以最后一条为准。支持开源 Qwen3 混合模型、qwen-plus-2025-04-28 和 qwen-turbo-2025-04-28。
推理模式下的 function calling
开启推理后进行 function calling,模型会先推理应调用哪些工具、如何使用返回结果,再生成回答。响应中每次工具调用前都会包含 reasoning_content。
要点:
- 在
tools数组的同时传入enable_thinking: true即可,无需额外配置。 - 在多轮工具调用流程中,将助手的
reasoning_content一并回传。省略该字段会降低准确性。 - 流式输出先返回推理 token,再返回工具调用的增量数据。解析方式参见流式输出中的工具调用。
thinking_budget的用法与普通推理模式一致。
推理模式在复杂工具编排场景中价值最大——多步推理选择工具、确定参数、解读结果。对于简单的单工具调用,额外开销可能不值得。
注意事项
- 部分模型必须使用流式输出:Qwen3.6 Plus、Qwen3.5 Plus/Flash、Qwen3 Max、Qwen Plus/Flash/Turbo(商业版)以及 Qwen3.5 开源模型支持非流式输出。Qwen3 开源模型必须使用流式输出。始终建议使用流式输出以避免超时风险。
- 推理模式下不支持语音输出(Qwen3-Omni):文本和图片输入正常,但开启推理后无法输出语音。

