跳转到主要内容
模型

思考模式

通过逐步推理解决复杂任务

Thinking(推理)模型在回答前先进行推理,输出 reasoning_content(Chat Completions / DashScope)或 reasoning_summary_text 事件(Responses API)。模型支持两种推理模式:
  • 混合模式:通过 enable_thinking 逐请求开关推理。Qwen3.5(默认开启)、Qwen3、Qwen3-VL、Qwen3-Omni(默认关闭)。
  • 纯推理模式:始终进行推理,无法关闭。QwQ、-thinking 系列变体。

支持的模型

Qwen3.6

  • Max 系列(混合模式,默认开启):qwen3.6-max-preview
  • Plus 系列(混合模式,默认开启):qwen3.6-plusqwen3.6-plus-2026-04-02
  • Flash 系列(混合模式,默认开启):qwen3.6-flashqwen3.6-flash-2026-04-16
  • 开源版qwen3.6-35b-a3b

Qwen3.5

商业版
  • Plus 系列(混合模式,默认开启):qwen3.5-plusqwen3.5-plus-2026-02-15
  • Flash 系列(混合模式,默认开启):qwen3.5-flashqwen3.5-flash-2026-02-23
开源版
  • 混合模式,默认开启:qwen3.5-397b-a17bqwen3.5-122b-a10bqwen3.5-27bqwen3.5-35b-a3b

Qwen3

商业版
  • Max 系列(混合模式,默认关闭):qwen3-maxqwen3-max-2026-01-23qwen3-max-preview
  • Plus 系列(混合模式,默认关闭):qwen-plusqwen-plus-latestqwen-plus-2025-04-28 及之后的快照版模型
  • Flash 系列(混合模式,默认关闭):qwen-flashqwen-flash-2025-07-28 及之后的快照版模型
  • Turbo 系列(混合模式,默认关闭):qwen-turboqwen-turbo-latestqwen-turbo-2025-04-28 及之后的快照版模型
开源版
  • 混合模式,默认开启:qwen3-235b-a22bqwen3-32bqwen3-30b-a3bqwen3-14bqwen3-8bqwen3-4bqwen3-1.7bqwen3-0.6b
  • 纯推理模式:qwen3-next-80b-a3b-thinkingqwen3-235b-a22b-thinking-2507qwen3-30b-a3b-thinking-2507

QwQ(基于 Qwen2.5)

  • 纯推理模式:qwq-plusqwq-plus-latestqwq-plus-2025-03-05qwq-32b

DeepSeek

千问云部署
  • 混合模式,默认开启:deepseek-v4-prodeepseek-v4-flash
  • 混合模式,默认关闭:deepseek-v3.2deepseek-v3.2-expdeepseek-v3.1
  • 纯推理模式:deepseek-r1deepseek-r1-0528、DeepSeek-R1 蒸馏模型
硅基流动部署
  • 混合模式,默认关闭:siliconflow/deepseek-v3.2siliconflow/deepseek-v3.1-terminus
  • 纯推理模式:siliconflow/deepseek-r1-0528
快手万擎部署
  • 混合模式,默认关闭:vanchin/deepseek-v3.2-thinkvanchin/deepseek-v3.1-terminus
  • 纯推理模式:vanchin/deepseek-r1

GLM

  • 混合模式,默认开启:glm-5.1glm-5glm-4.7glm-4.6glm-4.5glm-4.5-air

Kimi

千问云部署
  • 混合模式,默认关闭:kimi-k2.6kimi-k2.5
  • 纯推理模式:kimi-k2-thinking
月之暗面部署
  • 混合模式,默认开启:kimi/kimi-k2.6kimi/kimi-k2.5

MiniMax

千问云部署
  • 纯推理模式:MiniMax-M2.5MiniMax-M2.1
MiniMax 部署
  • 纯推理模式:MiniMax/MiniMax-M2.7MiniMax/MiniMax-M2.5MiniMax/MiniMax-M2.1

开启推理

  • OpenAI Chat Completions
  • OpenAI Responses API
  • DashScope
import os
from openai import OpenAI
client = OpenAI(api_key=os.getenv("DASHSCOPE_API_KEY"), base_url="https://dashscope.aliyuncs.com/compatible-mode/v1")

completion = client.chat.completions.create(
  model="qwen3.6-plus",
  messages=[{"role": "user", "content": "If 3x + 7 = 22, what is x?"}],
  extra_body={"enable_thinking": True},              # ← 开启推理
  stream=True,
)
for chunk in completion:
  if not chunk.choices:
    continue
  delta = chunk.choices[0].delta
  if hasattr(delta, "reasoning_content") and delta.reasoning_content:
    print(delta.reasoning_content, end="", flush=True)  # ← 阶段 1:推理过程
  if hasattr(delta, "content") and delta.content:
    print(delta.content, end="", flush=True)             # ← 阶段 2:最终回答

控制推理深度

Token 预算

使用 thinking_budget 限制推理 token 的最大数量。达到上限后,模型会停止推理并立即生成回答。Qwen3(思考模式)、GLM 与 Kimi 模型均支持该参数。仅适用于 Chat Completions 和 DashScope,Responses API 暂不支持。
  • OpenAI Chat Completions
  • DashScope
extra_body={"enable_thinking": True, "thinking_budget": 500}

Prompt 级控制

开启 enable_thinking: true 后,可在消息中添加 /no_think 跳过当次推理,用 /think 恢复。多条指令以最后一条为准。支持开源 Qwen3 混合模型、qwen-plus-2025-04-28qwen-turbo-2025-04-28

推理模式下的 function calling

开启推理后进行 function calling,模型会先推理应调用哪些工具、如何使用返回结果,再生成回答。响应中每次工具调用前都会包含 reasoning_content 要点
  • tools 数组的同时传入 enable_thinking: true 即可,无需额外配置。
  • 在多轮工具调用流程中,将助手的 reasoning_content 一并回传。省略该字段会降低准确性。
  • 流式输出先返回推理 token,再返回工具调用的增量数据。解析方式参见流式输出中的工具调用
  • thinking_budget 的用法与普通推理模式一致。
推理模式在复杂工具编排场景中价值最大——多步推理选择工具、确定参数、解读结果。对于简单的单工具调用,额外开销可能不值得。

注意事项

  • 部分模型必须使用流式输出:Qwen3.6 Plus、Qwen3.5 Plus/Flash、Qwen3 Max、Qwen Plus/Flash/Turbo(商业版)以及 Qwen3.5 开源模型支持非流式输出。Qwen3 开源模型必须使用流式输出。始终建议使用流式输出以避免超时风险。
  • 推理模式下不支持语音输出(Qwen3-Omni):文本和图片输入正常,但开启推理后无法输出语音。