思考模式 - 千问云

Thinking（推理）模型在回答前先进行推理，输出 reasoning_content（Chat Completions / DashScope）或 reasoning_summary_text 事件（Responses API）。模型支持两种推理模式：

混合模式：通过 enable_thinking 逐请求开关推理。Qwen3.5（默认开启）、Qwen3、Qwen3-VL、Qwen3-Omni（默认关闭）。
纯推理模式：始终进行推理，无法关闭。QwQ、-thinking 系列变体。

支持的模型

展开查看完整模型列表

Qwen3.7

Max 系列（混合模式，默认开启）：qwen3.7-max、qwen3.7-max-2026-06-08、qwen3.7-max-2026-05-20
Max 系列（仅支持思考模式）：qwen3.7-max-preview、qwen3.7-max-2026-05-17
Plus 系列（混合模式，默认开启）：qwen3.7-plus、qwen3.7-plus-2026-05-26

Qwen3.6

Max 系列（混合模式，默认开启）：qwen3.6-max-preview
Plus 系列（混合模式，默认开启）：qwen3.6-plus、qwen3.6-plus-2026-04-02
Flash 系列（混合模式，默认开启）：qwen3.6-flash、qwen3.6-flash-2026-04-16
开源版：qwen3.6-35b-a3b

Qwen3.5

商业版

Plus 系列（混合模式，默认开启）：qwen3.5-plus、qwen3.5-plus-2026-02-15
Flash 系列（混合模式，默认开启）：qwen3.5-flash、qwen3.5-flash-2026-02-23

开源版

混合模式，默认开启：qwen3.5-397b-a17b、qwen3.5-122b-a10b、qwen3.5-27b、qwen3.5-35b-a3b

Qwen3

商业版

Max 系列（混合模式，默认关闭）：qwen3-max、qwen3-max-2026-01-23、qwen3-max-preview
Plus 系列（混合模式，默认关闭）：qwen-plus、qwen-plus-latest、qwen-plus-2025-04-28 及之后的快照版模型
Flash 系列（混合模式，默认关闭）：qwen-flash、qwen-flash-2025-07-28 及之后的快照版模型
Turbo 系列（混合模式，默认关闭）：qwen-turbo 及之后的快照版模型

开源版

混合模式，默认开启：qwen3-235b-a22b、qwen3-32b、qwen3-30b-a3b、qwen3-14b、qwen3-8b
纯推理模式：qwen3-next-80b-a3b-thinking、qwen3-235b-a22b-thinking-2507、qwen3-30b-a3b-thinking-2507

QwQ（基于 Qwen2.5）

纯推理模式：qwq-plus

DeepSeek

千问云部署

混合模式，默认开启：deepseek-v4-pro、deepseek-v4-flash
混合模式，默认关闭：deepseek-v3.2、deepseek-v3.2-exp、deepseek-v3.1
纯推理模式：deepseek-r1、deepseek-r1-0528、DeepSeek-R1 蒸馏模型

硅基流动部署

混合模式，默认关闭：siliconflow/deepseek-v3.2、siliconflow/deepseek-v3.1-terminus
纯推理模式：siliconflow/deepseek-r1-0528

快手万擎部署

混合模式，默认关闭：vanchin/deepseek-v3.2-think、vanchin/deepseek-v3.1-terminus
纯推理模式：vanchin/deepseek-r1

GLM

混合模式，默认开启：glm-5.1、glm-5、glm-4.7、glm-4.6、glm-4.5、glm-4.5-air

Kimi

千问云部署

仅思考模式：kimi-k2.7-code
混合模式，默认关闭：kimi-k2.6、kimi-k2.5
纯推理模式：kimi-k2-thinking

月之暗面部署

仅思考模式：kimi/kimi-k2.7-code-highspeed、kimi/kimi-k2.7-code
混合模式，默认开启：kimi/kimi-k2.6、kimi/kimi-k2.5

MiniMax

千问云部署

纯推理模式：MiniMax-M2.5、MiniMax-M2.1

MiniMax 部署

混合思考模式：MiniMax/MiniMax-M3

MiniMax/MiniMax-M3 通过 thinking 参数控制思考模式，取值为 adaptive（自适应，默认）或 disabled（关闭）。详细用法请参见 MiniMax-稀宇科技。

纯推理模式：MiniMax/MiniMax-M2.7、MiniMax/MiniMax-M2.5、MiniMax/MiniMax-M2.1

Stepfun

混合思考模式：stepfun/step-3.7-flash

开启推理

OpenAI Chat Completions
OpenAI Responses API
DashScope

import os
from openai import OpenAI
client = OpenAI(api_key=os.getenv("DASHSCOPE_API_KEY"), base_url="https://dashscope.aliyuncs.com/compatible-mode/v1")

completion = client.chat.completions.create(
  model="qwen3.7-plus",
  messages=[{"role": "user", "content": "If 3x + 7 = 22, what is x?"}],
  extra_body={"enable_thinking": True},              # ← 开启推理
  stream=True,
)
for chunk in completion:
  if not chunk.choices:
    continue
  delta = chunk.choices[0].delta
  if hasattr(delta, "reasoning_content") and delta.reasoning_content:
    print(delta.reasoning_content, end="", flush=True)  # ← 阶段 1：推理过程
  if hasattr(delta, "content") and delta.content:
    print(delta.content, end="", flush=True)             # ← 阶段 2：最终回答

推理内容通过 response.reasoning_summary_text.delta 事件返回，随后通过 response.output_text.delta 返回最终回答。

import os
from openai import OpenAI
client = OpenAI(api_key=os.getenv("DASHSCOPE_API_KEY"), base_url="https://dashscope.aliyuncs.com/compatible-mode/v1")

stream = client.responses.create(
  model="qwen3.7-plus",
  input="If 3x + 7 = 22, what is x?",
  extra_body={"enable_thinking": True},              # ← 开启推理
  stream=True,
)
for chunk in stream:
  if chunk.type == "response.reasoning_summary_text.delta":
    print(chunk.delta, end="", flush=True)         # ← 阶段 1：推理过程
  elif chunk.type == "response.output_text.delta":
    print(chunk.delta, end="", flush=True)         # ← 阶段 2：最终回答

import dashscope
dashscope.base_http_api_url = 'https://dashscope.aliyuncs.com/api/v1'
from dashscope import MultiModalConversation

responses = MultiModalConversation.call(
  model="qwen3.7-plus",
  messages=[{"role": "user", "content": [{"text": "If 3x + 7 = 22, what is x?"}]}],
  enable_thinking=True,                              # ← 开启推理
  stream=True,
  incremental_output=True,                           # ← 推荐：仅返回新增 token
)
for chunk in responses:
  msg = chunk.output.choices[0].message
  if msg.reasoning_content:
    print(msg.reasoning_content, end="", flush=True)   # ← 阶段 1：推理过程
  if msg.content and msg.content[0].get("text"):
    print(msg.content[0]["text"], end="", flush=True)   # ← 阶段 2：最终回答

控制推理深度

Token 预算

使用 thinking_budget 限制推理 token 的最大数量。达到上限后，模型会停止推理并立即生成回答。Qwen3（思考模式）、GLM 与 Kimi 模型均支持该参数。仅适用于 Chat Completions 和 DashScope，Responses API 暂不支持。

OpenAI Chat Completions
DashScope

extra_body={"enable_thinking": True, "thinking_budget": 500}

Prompt 级控制

开启 enable_thinking: true 后，可在消息中添加 /no_think 跳过当次推理，用 /think 恢复。多条指令以最后一条为准。支持开源 Qwen3 混合模型和 qwen-plus-2025-04-28。

多轮对话中传递思考过程

多轮对话中，模型默认不会读取历史消息中 messages 数组里的 reasoning_content。将 preserve_thinking 设为 true 后，assistant 消息中的 reasoning_content 将被拼接到下一轮输入，让模型参考之前的推理过程。

preserve_thinking 参数仅支持 qwen3.7-max、qwen3.7-max-2026-06-08、qwen3.7-max-2026-05-20、qwen3.7-max-preview、qwen3.7-max-2026-05-17、qwen3.7-plus、qwen3.7-plus-2026-05-26、qwen3.6-max-preview、qwen3.6-plus、qwen3.6-plus-2026-04-02、kimi-k2.7-code、kimi-k2.6（千问云部署）、kimi/kimi-k2.7-code-highspeed、kimi/kimi-k2.7-code、kimi/kimi-k2.6（月之暗面部署）。

OpenAI Chat Completions
DashScope

extra_body={"preserve_thinking": True}

preserve_thinking 非 OpenAI 标准参数，使用 Python SDK 需通过 extra_body 传入。
Java SDK 暂不支持 preserve_thinking 参数。通过 HTTP 调用时，请将 preserve_thinking 放入 parameters 对象中。
启用后，历史对话中的 reasoning_content 会计入输入 Token 数量并计费。

推理模式下的 function calling

开启推理后进行 function calling，模型会先推理应调用哪些工具、如何使用返回结果，再生成回答。响应中每次工具调用前都会包含 reasoning_content。要点：

在 tools 数组的同时传入 enable_thinking: true 即可，无需额外配置。
在多轮工具调用流程中，将助手的 reasoning_content 一并回传。省略该字段会降低准确性。
流式输出先返回推理 token，再返回工具调用的增量数据。解析方式参见流式输出中的工具调用。
thinking_budget 的用法与普通推理模式一致。

推理模式在复杂工具编排场景中价值最大——多步推理选择工具、确定参数、解读结果。对于简单的单工具调用，额外开销可能不值得。

注意事项

部分模型必须使用流式输出：Qwen3.6 Plus、Qwen3.5 Plus/Flash、Qwen3 Max、Qwen Plus/Flash/Turbo（商业版）以及 Qwen3.5 开源模型支持非流式输出。Qwen3 开源模型必须使用流式输出。始终建议使用流式输出以避免超时风险。
推理模式下不支持语音输出（Qwen3-Omni）：文本和图片输入正常，但开启推理后无法输出语音。

​支持的模型

Qwen3.7

Qwen3.6

Qwen3.5

Qwen3

QwQ（基于 Qwen2.5）

DeepSeek

GLM

Kimi

MiniMax

Stepfun

​开启推理

​控制推理深度

​Token 预算

​Prompt 级控制

​多轮对话中传递思考过程

​推理模式下的 function calling

​注意事项

支持的模型

开启推理

控制推理深度

Token 预算

Prompt 级控制

多轮对话中传递思考过程

推理模式下的 function calling

注意事项