DeepSeek-千问云 - 千问云
跳转到主要内容
三方模型

GLM-千问云

通过API调用 GLM 系列模型进行对话。

快速开始

glm-5.1 是 GLM 系列最新模型,支持通过enable_thinking参数设置思考与非思考模式。运行以下代码快速调用思考模式的 glm-5.1 模型。 需要已获取API Key并完成环境配置。如果通过SDK调用,需要安装 OpenAI 或 DashScope SDK。
  • OpenAI兼容
  • DashScope
enable_thinking非 OpenAI 标准参数,OpenAI Python SDK 通过 extra_body传入,Node.js SDK 作为顶层参数传入。
  • Python
  • Node.js
  • HTTP

示例代码

from openai import OpenAI
import os

# 初始化OpenAI客户端
client = OpenAI(
  # 如果没有配置环境变量,请用千问云API Key替换:api_key="sk-xxx"
  api_key=os.getenv("DASHSCOPE_API_KEY"),
  base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

messages = [{"role": "user", "content": "你是谁"}]
completion = client.chat.completions.create(
  model="glm-5.1",
  messages=messages,
  # 通过 extra_body 设置 enable_thinking 开启思考模式
  extra_body={"enable_thinking": True},
  stream=True,
  stream_options={
    "include_usage": True
  },
)

reasoning_content = ""  # 完整思考过程
answer_content = ""  # 完整回复
is_answering = False  # 是否进入回复阶段
print("\n" + "=" * 20 + "思考过程" + "=" * 20 + "\n")

for chunk in completion:
  if not chunk.choices:
    print("\n" + "=" * 20 + "Token 消耗" + "=" * 20 + "\n")
    print(chunk.usage)
    continue

  delta = chunk.choices[0].delta

  # 只收集思考内容
  if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:
    if not is_answering:
      print(delta.reasoning_content, end="", flush=True)
    reasoning_content += delta.reasoning_content

  # 收到content,开始进行回复
  if hasattr(delta, "content") and delta.content:
    if not is_answering:
      print("\n" + "=" * 20 + "完整回复" + "=" * 20 + "\n")
      is_answering = True
    print(delta.content, end="", flush=True)
    answer_content += delta.content

返回结果

====================思考过程====================

让我仔细思考用户提出的这个看似简单但实际上很有深度的问题。

从语言特点来看,用户使用的是中文,这意味着我应该用中文来回应。这是一个最基础的自我介绍问题,但背后可能包含着多层次的含义。

首先需要明确的是,作为一个语言模型,我应该诚实地说明自己的身份和本质。我既不是人类,也不具备真正的情感意识,而是一个由深度学习技术训练的AI助手。这是最基本的事实。

其次,考虑到用户可能的需求场景,他们或许想了解:
1. 我能提供什么样的服务
2. 我的专业领域是什么
3. 我的局限性在哪里
4. 如何与我更好地互动

在回答中,我应该既表达友好和开放的态度,又保持专业和准确。要说明自己擅长的主要领域,比如知识问答、写作辅助、创意支持等,但同时也要坦诚地指出自己的局限性,比如缺乏真实的情感体验。

此外,为了让回答更加完整,我还应该表达出愿意帮助用户解决问题的积极态度。可以适当引导用户提出更具体的问题,这样可以更好地展现自己的能力。

考虑到这是一个开放式的开场白,回答时既要简洁明了,又要包含足够的信息量,让用户对我的基本情况有一个清晰的认识,同时为后续的对话奠定良好的基础。

最后,语气应该保持谦逊和专业,既不过于技术化,也不显得过分随意,让用户感到舒适和自然。
====================完整回复====================

我是智谱AI训练的GLM大语言模型,旨在为用户提供信息和帮助解决问题。我被设计用来理解和生成人类语言,可以回答问题、提供解释或参与各类话题讨论。

我不会存储您的个人数据,我们的对话是匿名的。有什么我能帮您了解或探讨的话题吗?
====================Token 消耗====================

CompletionUsage(completion_tokens=344, prompt_tokens=7, total_tokens=351, completion_tokens_details=None, prompt_tokens_details=None)
三方模型

DeepSeek-千问云

通过OpenAI兼容接口或DashScope SDK调用千问云提供的DeepSeek系列模型,包括DeepSeek V4、DeepSeek R1、DeepSeek V3等。

本文档介绍如何通过OpenAI兼容接口或DashScope SDK调用DeepSeek系列模型。

快速开始

deepseek-v4-pro 是 DeepSeek 系列最新模型,在编程、数学和通用任务方面表现出色。您可以通过enable_thinking参数在思考与非思考模式之间切换。以下示例展示如何调用思考模式的 deepseek-v4-pro 模型。 需要已获取API Key并完成配置API Key到环境变量。如果通过SDK调用,需要安装 OpenAI 或 DashScope SDK。
  • OpenAI兼容
  • DashScope
enable_thinking非 OpenAI 标准参数,OpenAI Python SDK通过 extra_body传入,Node.js SDK作为顶层参数传入。reasoning_effort是 OpenAI 标准参数,可直接作为顶层参数传入。
  • Python
  • Node.js
  • curl
示例代码
from openai import OpenAI
import os

# 初始化OpenAI客户端
client = OpenAI(
  # 如果没有配置环境变量,请用千问云API Key替换:api_key="sk-xxx"
  api_key=os.getenv("DASHSCOPE_API_KEY"),
  base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

messages = [{"role": "user", "content": "你是谁"}]
completion = client.chat.completions.create(
  model="deepseek-v4-pro",
  messages=messages,
  # 通过 extra_body 设置 enable_thinking 开启思考模式
  extra_body={"enable_thinking": True},
  stream=True,
  stream_options={
    "include_usage": True
  },
)

reasoning_content = ""  # 完整思考过程
answer_content = ""  # 完整回复
is_answering = False  # 是否进入回复阶段
print("\n" + "=" * 20 + "思考过程" + "=" * 20 + "\n")

for chunk in completion:
  if not chunk.choices:
    print("\n" + "=" * 20 + "Token 消耗" + "=" * 20 + "\n")
    print(chunk.usage)
    continue

  delta = chunk.choices[0].delta

  # 只收集思考内容
  if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:
    if not is_answering:
      print(delta.reasoning_content, end="", flush=True)
    reasoning_content += delta.reasoning_content

  # 收到content,开始进行回复
  if hasattr(delta, "content") and delta.content:
    if not is_answering:
      print("\n" + "=" * 20 + "完整回复" + "=" * 20 + "\n")
      is_answering = True
    print(delta.content, end="", flush=True)
    answer_content += delta.content
返回结果
====================思考过程====================

嗯,用户问了一个非常简单的自我介绍问题:"你是谁"。

我需要明确自己的身份,用简洁友好的方式介绍我是DeepSeek,说明我的创造者、基本特性和可提供的帮助。

想到了可以这样组织回答:先直接表明身份,说明由深度求索公司创造,然后列出一些关键特点(免费、长上下文、文件上传等),最后以友好的邀请结束,询问是否需要帮助。
====================完整回复====================

你好!我是 DeepSeek,由深度求索公司创造的 AI 助手。

我可以帮你解答各种问题、进行文字创作、分析文档、编程辅助等等。我最大的特点是**免费使用**、**超长上下文**(能一次处理整本三体三部曲那么多内容)、支持**文件上传**和**联网搜索**(需手动开启)。

有什么我可以帮你的吗?不管是学习、工作还是日常闲聊,我都很乐意陪你聊聊!
====================Token 消耗====================

CompletionUsage(completion_tokens=238, prompt_tokens=5, total_tokens=243, completion_tokens_details=CompletionTokensDetails(accepted_prediction_tokens=None, audio_tokens=None, reasoning_tokens=93, rejected_prediction_tokens=None), prompt_tokens_details=None)

流式工具调用

glm-5.1、glm-5、glm-4.7、glm-4.6 支持tool_stream参数(boolean,默认false),仅在streamtrue时生效。开启后,Function Calling 返回的 tool_call 参数(arguments)会以流式增量方式逐步返回,而非等待完整生成后一次性返回。 streamtool_stream的组合行为如下:
streamtool_streamtool_call 返回方式
truetruearguments 以增量方式分多个 chunk 返回
truefalse(默认)arguments 在一个 chunk 中完整返回
falsetrue/falsetool_stream 不生效,arguments 在完整响应中一次性返回
  • OpenAI兼容
  • DashScope
  • Python
  • Node.js
  • HTTP

示例代码

from openai import OpenAI
import os

client = OpenAI(
  api_key=os.getenv("DASHSCOPE_API_KEY"),
  base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

tools = [
  {
    "type": "function",
    "function": {
      "name": "get_weather",
      "description": "获取指定城市的天气信息",
      "parameters": {
        "type": "object",
        "properties": {
          "city": {"type": "string", "description": "城市名称"}
        },
        "required": ["city"]
      }
    }
  }
]

messages = [{"role": "user", "content": "北京天气怎么样"}]

completion = client.chat.completions.create(
  model="glm-5.1",
  tools=tools,
  messages=messages,
  extra_body={
    "tool_stream": True,
  },
  stream=True,
  stream_options={"include_usage": True},
)

for chunk in completion:
  if chunk.choices:
    delta = chunk.choices[0].delta
    if hasattr(delta, 'content') and delta.content:
      print(f"[content] {delta.content}")
    if hasattr(delta, 'tool_calls') and delta.tool_calls:
      for tc in delta.tool_calls:
        print(f"[tool_call] id={tc.id}, name={tc.function.name}, args={tc.function.arguments}")
    if chunk.choices[0].finish_reason:
      print(f"[finish_reason] {chunk.choices[0].finish_reason}")
  if not chunk.choices and chunk.usage:
    print(f"[usage] {chunk.usage}")

其它功能

模型多轮对话Function Calling联网搜索异步调用前缀续写上下文缓存
glm-5.1✓(仅非思考模式)✓(支持显式与隐式缓存)
glm-5✓(仅非思考模式)✓(仅支持隐式缓存)
glm-4.7✓(仅非思考模式)✓(仅支持隐式缓存)
glm-4.6✓(仅非思考模式)✓(仅支持隐式缓存)
glm-4.5
glm-4.5-air

参数默认值

模型enable_thinkingtemperaturetop_ptop_krepetition_penalty
glm-5.1true1.00.95201.0
glm-5true1.00.95201.0
glm-4.7true1.00.95201.0
glm-4.6true1.00.95201.0
glm-4.5true0.60.95201.0
glm-4.5-airtrue0.60.95201.0

模型列表与计费

GLM 系列模型是智谱AI专为智能体设计的混合推理模型,提供思考与非思考两种模式。 模型上下文长度与价格信息请参见千问云控制台。 按照模型的输入与输出 Token 计费。
思考模式下,思维链按照输出 Token 计费。

错误码

如果执行报错,请参见错误码文档进行解决。

推理强度(reasoning_effort)

deepseek-v4-pro 和 deepseek-v4-flash 默认开启思考模式。通过reasoning_effort参数可以调整推理强度,可选值为highmax,默认为high
设为lowmedium时会映射为high,设为xhigh时会映射为max
  • OpenAI兼容
  • DashScope
  • Python
  • Node.js
  • curl
from openai import OpenAI
import os

client = OpenAI(
  api_key=os.getenv("DASHSCOPE_API_KEY"),
  base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
  model="deepseek-v4-pro",
  messages=[{"role": "user", "content": "9.9和9.11哪个大"}],
  reasoning_effort="high",
)
print(completion.choices[0].message.content)

其它功能

模型多轮对话Function Calling联网搜索上下文缓存结构化输出前缀续写
deepseek-v4-pro
deepseek-v4-flash
deepseek-v3.2
deepseek-v3.2-exp✓(仅支持非思考模式)
deepseek-v3.1✓(仅支持非思考模式)
deepseek-r1
deepseek-r1-0528
deepseek-v3
蒸馏模型

参数默认值

模型temperaturetop_prepetition_penaltypresence_penaltymax_tokensthinking_budget
deepseek-v4-pro1.01.0--共393,216共393,216
deepseek-v4-flash1.01.0--共393,216共393,216
deepseek-v3.21.00.95--65,53632,768
deepseek-v3.2-exp0.60.951.0-65,53632,768
deepseek-v3.10.60.951.0-65,53632,768
deepseek-r10.60.95-116,38432,768
deepseek-r1-05280.60.95-116,38432,768
蒸馏版0.60.95-116,38416,384
deepseek-v30.70.6--16,384-
  • "-" 表示没有默认值,也不支持设置。
  • deepseek-r1、deepseek-r1-0528、蒸馏版模型不支持设置以上参数值。
  • 参数含义请参考OpenAI兼容-Chat接口文档。

模型列表与计费

  • 混合思考模型(通过enable_thinking参数控制是否思考):deepseek-v4-pro、deepseek-v4-flash、deepseek-v3.2、deepseek-v3.2-exp、deepseek-v3.1
  • 仅思考模型(回复前总会思考):deepseek-r1、deepseek-r1-0528
  • 非思考模型:deepseek-v3
deepseek-v4-pro 在编程、数学和通用任务方面表现出色,deepseek-v4-flash 快速且经济高效,推荐优先使用 deepseek-v4-pro。 模型上下文长度与价格信息请参见千问云控制台。 按照模型的输入与输出 Token 计费。
思考模式下,思维链按照输出 Token 计费。

常见问题

如何接入Chatbox、Cherry Studio或Dify?

此处以常用工具为例进行说明,其它大模型工具的接入方式类似。
  • Chatbox
  • Cherry Studio
  • Dify
请参见 Chatbox 接入文档。

可以上传图片或文档进行提问吗?

DeepSeek 模型仅支持文本输入,不支持图片或文档输入。如需图片输入,请使用千问VL模型;如需文档输入,请使用Qwen-Long模型。

错误码

如果执行报错,请参见错误信息文档进行解决。