发起第一次文本生成调用
文本生成模型接收自然语言输入,生成问答、写作、摘要、翻译、结构化输出等文本内容。
文本生成请求通常以
模型会以
开始之前,请先获取 API Key、将其设为环境变量,并按需安装 OpenAI 或 DashScope SDK。
根据你的技术栈选择合适的 API 风格:
同步调用跑通后,可通过异步调用提升高并发场景下的吞吐量。
响应
将原始数据直接输入大语言模型会因上下文长度限制导致成本上升、质量下降。上下文工程通过动态加载精准知识来提升输出质量和效率。核心技术包括:
适用于复杂场景:
完整的模型调用参数列表,请参见 OpenAI Compatible API 参考和 DashScope API 参考。
为什么 Qwen API 无法解析网页链接?
Qwen API 无法直接访问或解析网页链接。你可以使用工具调用,或结合 Python Beautiful Soup 等网页抓取工具来读取网页内容。
为什么通义千问 Web 端和 API 的回复不同?
通义千问 Web 端在 Qwen API 基础上做了额外的工程优化,支持网页解析、联网搜索、绘图、PPT 生成等功能。这些能力不属于大语言模型 API 本身,你可以通过工具调用来实现类似效果。
模型能直接生成 Word、Excel、PDF 或 PPT 文件吗?
不能。千问云文本生成模型仅输出纯文本,你可以通过代码或第三方库将文本转换为所需格式。
请求结构
文本生成请求通常以 messages 数组的形式发送,每条消息包含 role(角色)和 content(内容)两个字段。
- System message:设定模型行为的全局指令。
- User message:用户的输入或任务描述。
- Assistant message:模型的回复内容。
user 消息,可选地附带一条 system 消息以获得更稳定、可控的输出。
system 消息非必需,但如果你希望模型表现更一致,建议添加。assistant 消息返回回复。
发起第一次调用
开始之前,请先获取 API Key、将其设为环境变量,并按需安装 OpenAI 或 DashScope SDK。
根据你的技术栈选择合适的 API 风格:
- 新项目建议使用 OpenAI Compatible -- Responses API。
- 已有 OpenAI 兼容代码需要迁移时,使用 OpenAI Compatible -- Chat Completions API。
- 偏好原生 SDK 时,使用 DashScope。
- OpenAI Compatible -- Responses API
- OpenAI Compatible -- Chat Completions API
- DashScope
- DashScope -- Qwen3.5/3.6
接口说明、代码示例和迁移指南请参见 OpenAI compatible - Responses。响应响应包含以下主要字段:
-
id:响应 ID。 -
output:输出列表,包含reasoning(思考过程)和message(回复内容)。reasoning字段仅在开启深度思考时出现(例如 Qwen3.5 和 Qwen3.6 系列默认开启)。 -
usage:Token 用量统计。
完整 JSON 响应
完整 JSON 响应
异步调用
同步调用跑通后,可通过异步调用提升高并发场景下的吞吐量。
- OpenAI Compatible -- Chat Completions API
- DashScope
由于调用是异步的,响应顺序可能与示例不同。
生产优化
构建更优质的上下文
将原始数据直接输入大语言模型会因上下文长度限制导致成本上升、质量下降。上下文工程通过动态加载精准知识来提升输出质量和效率。核心技术包括:
- Prompt 工程:设计和优化提示词,引导模型生成预期的输出。详见文本生成 Prompt 指南。
- 检索增强生成(RAG):当模型需要基于产品文档、技术手册等外部知识库回答问题时使用。
- 工具调用:让模型获取天气、交通等实时数据,或执行调用 API、发送邮件等操作。
- 记忆机制:为模型提供短期和长期记忆,使其理解对话历史。
调整生成行为
temperature 和 top_p 参数控制生成文本的多样性。值越高,多样性越强;值越低,可预测性越高。建议每次只调整其中一个参数,以便准确评估效果。
temperature:取值范围 [0, 2),用于调节随机性。top_p:取值范围 (0, 1.0],按概率阈值过滤候选 Token。
- 高多样性(如
temperature=0.9):适用于创意写作、头脑风暴或营销文案等需要新颖和想象力的场景。
- 高可预测性(如
temperature=0.1):适用于事实问答、代码生成或法律文本等对准确性和一致性要求高的场景。
原理说明
原理说明
temperature:
- 较高的 temperature 使 Token 概率分布趋于平坦。高概率 Token 被选中的可能性降低,低概率 Token 的可能性升高,模型选择下一个 Token 时更具随机性。
- 较低的 temperature 使 Token 概率分布更加尖锐。高概率 Token 更容易被选中,低概率 Token 更不容易,模型倾向于选择高概率 Token。
- 较高的 top_p 值纳入更多候选 Token,增加多样性。
- 较低的 top_p 值纳入更少候选 Token,增加聚焦性和可预测性。
常见场景的参数设置
常见场景的参数设置
探索更多文本生成功能
适用于复杂场景:
- 多轮对话:适用于追问、信息采集等需要连续对话的场景。
- 流式输出:适用于聊天机器人或实时代码生成,提升用户体验并避免长响应导致的超时。
- 深度思考:适用于复杂推理或政策分析等需要高质量结构化回答的场景。
- 结构化输出:当需要模型以稳定的 JSON 格式回复,用于程序化处理或数据解析时使用。
- 续写模式:适用于代码补全或长文写作,让模型从现有文本继续生成。

