鉴权
通过 x-api-key 请求头传入千问云 API Key。也支持 Authorization: Bearer 请求头,二者选其一即可。
请求体
application/json模型名称。支持范围如下:
千问Max:qwen3.6-max-preview、qwen3-max、qwen3-max-2026-01-23、qwen3-max-preview
千问Plus:qwen3.6-plus、qwen3.6-plus-2026-04-02、qwen3.5-plus、qwen3.5-plus-2026-04-20、qwen3.5-plus-2026-02-15、qwen-plus、qwen-plus-latest、qwen-plus-2025-09-11
千问Flash:qwen3.6-flash、qwen3.6-flash-2026-04-16、qwen3.5-flash、qwen3.5-flash-2026-02-23、qwen-flash、qwen-flash-2025-07-28
千问Turbo:qwen-turbo、qwen-turbo-latest
千问Coder:qwen3-coder-next、qwen3-coder-plus、qwen3-coder-plus-2025-09-23、qwen3-coder-flash
千问VL:qwen3-vl-plus、qwen3-vl-flash、qwen-vl-max、qwen-vl-plus
千问开源模型:qwen3.6-27b、qwen3.5-397b-a17b、qwen3.5-122b-a10b、qwen3.5-27b、qwen3.5-35b-a3b
第三方模型:deepseek-v4-pro、deepseek-v4-flash、deepseek-v3.2、kimi-k2.6、kimi-k2.5、kimi-k2-thinking、glm-5.1、glm-5、glm-4.7、glm-4.6、MiniMax-M2.5、MiniMax-M2.1
生成 Token 的最大数量。
消息数组,按 user / assistant 交替轮次排列。
系统提示词,用于设定模型的角色或行为。system 通过顶层参数传入,messages 数组中不接受 system 角色。传入字符串等价于单个 type="text" 的内容块。当需要为系统提示词标记显式缓存断点时,必须传入数组形式。
是否启用流式输出,默认为 false。
控制生成文本的多样性,取值范围 [0, 2)。值越大,生成结果越随机。该范围与 Anthropic 官方的 [0.0, 1.0] 不同,从 Anthropic 迁移时请确认该参数取值。
核采样的概率阈值,控制生成文本的多样性。temperature 与 top_p 均可控制多样性,建议只设置其中一个值。
生成过程中采样候选集的大小。
指定停止生成的文本序列。模型生成到该序列前会停止输出,且不包含该序列本身。命中后,响应的 stop_reason 仍为 end_turn,响应不会回填命中的序列。
深度思考配置。开启后,模型会在生成回复前先进行推理,以提升回答准确度。开启后,响应会包含 thinking 类型的内容块。
控制模型的推理强度,默认为 max。支持的模型:deepseek-v4-pro、deepseek-v4-flash。设为 low 或 medium 时会映射为 high,设为 xhigh 时会映射为 max。
工具定义数组,用于 Function Call 场景。
工具选择策略。{"type": "auto"}:模型自行决定是否调用工具(默认)。{"type": "any"}:强制调用任意一个工具。{"type": "none"}:禁止调用工具。{"type": "tool", "name": "tool_name"}:强制调用指定工具。
响应
消息的唯一标识。
固定为 message。
固定为 assistant。
使用的模型名称。
内容数组,元素类型可为 text(文本信息)、thinking(思考信息,开启深度思考时返回)或 tool_use(工具调用信息)。
停止原因:end_turn(正常结束)、max_tokens(达到 Token 上限)、tool_use(工具调用)。
固定为 null。
Token 用量统计。流式调用中,message_start 事件的 usage 仅包含 input_tokens 和 output_tokens;完整 4 个字段在 message_delta 事件中返回。

