使用 Qwen-Doc-Turbo 模型从文档中提取结构化数据,支持信息抽取、内容审核、分类打标和摘要生成。
数据挖掘模型专门针对信息抽取、内容审核、分类打标和摘要生成任务进行设计。相比通用对话模型,该模型能够快速且精确地输出规范的结构化数据(如JSON格式),解决通用对话模型返回不规范回复结构或提取信息不够准确的问题。
Qwen-Doc-Turbo 支持通过以下三种方式从文件中提取信息,具体文件大小与类型限制请参考限制:
通过文件URL直接提取结构化数据,支持最多10个文件同时处理。此处以传入示例产品手册A与示例产品手册B文件并通过提示词约束模型以JSON格式返回所提取信息为例。
在运行以下代码前,请先点击示例产品手册A下载文件,并将其放置在项目代码所在的目录中。通过OpenAI兼容接口上传到千问云平台的安全存储空间,获取返回的
运行以上代码,您可以得到本次上传文件对应的
将获取的
除了通过
关于Qwen-Doc-Turbo模型的输入与输出参数,请参考DashScope chat。
如果模型调用失败并返回报错信息,请参见错误信息进行解决。
使用方式
Qwen-Doc-Turbo 支持通过以下三种方式从文件中提取信息,具体文件大小与类型限制请参考限制:
| 特性 | 文件URL(推荐) | 文件ID | 纯文本 |
|---|---|---|---|
| 文件来源 | 公网 URL | 本地文件(需先上传) | 字符串传入 |
| 输入长度限制 | 最多10个文件,支持大文件(最大输入253k Token) | 1个文件,支持大文件(最大输入253k Token) | 9,000 Token以内 |
| SDK 兼容性 | 仅限 DashScope | 上传: OpenAI;调用: OpenAI 和 DashScope | OpenAI 和 DashScope |
| 核心优点 | 无需上传至千问云,支持批量调用 | 避免重复上传,适合复用 | 无需文件管理 |
前提条件
- 已获取与配置 API Key,并配置API Key到环境变量。
- 如果通过SDK调用,还需要安装OpenAI SDK或DashScope SDK。
通过文件URL传入
通过文件URL直接提取结构化数据,支持最多10个文件同时处理。此处以传入示例产品手册A与示例产品手册B文件并通过提示词约束模型以JSON格式返回所提取信息为例。
文件URL方式当前仅支持DashScope协议,可以选择使用DashScope Python SDK或者HTTP方式调用(如curl)。
响应示例
响应示例
通过文件ID传入
上传文件
在运行以下代码前,请先点击示例产品手册A下载文件,并将其放置在项目代码所在的目录中。通过OpenAI兼容接口上传到千问云平台的安全存储空间,获取返回的file-id。有关文件上传接口的详细参数解释及调用方式,请参考API文档页面进行了解。
file-id。
通过文件ID传入信息并对话
将获取的 file-id 嵌入到System Message 中。第一条System Message用于设定角色向模型提问,后续的System Message用于传入 file-id,User Message包含针对文件的具体问题。
完整示例:上传文件并调用模型
完整示例:上传文件并调用模型
响应示例
响应示例
通过纯文本传入
除了通过 file-id 传入文件信息外,您还可以直接使用字符串传入文件内容。在此方法下,为避免模型混淆角色设定与文件内容,请确保在 messages 的第一条消息中添加用于角色设定的信息。
受限于API调用请求体大小,如果您的文本内容长度超过9,000 Token,请通过文件URL或文件ID传入信息对话。
响应示例
响应示例
模型定价
| 模型名称 | 上下文长度 | 最大输入 | 最大输出 | 输入成本(每千Token) | 输出成本(每千Token) | 免费额度 |
|---|---|---|---|---|---|---|
| qwen-doc-turbo | 262,144 | 253,952 | 32,768 | 0.0006元 | 0.001元 | 无免费额度 |
常见问题
通过OpenAI文件兼容接口上传文件后,文件将被保存在何处?
通过OpenAI文件兼容接口上传文件后,文件将被保存在何处?
所有通过OpenAI文件兼容接口上传的文件均将被保存在当前账号下的千问云存储空间且不会产生任何费用,关于所上传文件的信息查询与管理请参考OpenAI文件接口。
文件ID是否可以用于其他模型对话或功能调用?
文件ID是否可以用于其他模型对话或功能调用?
文件ID目前仅能用于Qwen-Long、Qwen-Doc-Turbo模型对话以及Batch接口批量调用。
通过文件URL方式上传时,文件解析策略(file_parsing_strategy)参数有什么不同?
通过文件URL方式上传时,文件解析策略(file_parsing_strategy)参数有什么不同?
当解析策略设置为 "auto" 时,系统会根据文件内容自动进行解析;当解析策略设置为 "text_only" 时,系统将仅解析文字类内容;当解析策略设置为"text_and_images"时,系统将会解析所有图片与文本类内容,解析所需时间也会相应增加。
如何确定文件已经解析完成?
如何确定文件已经解析完成?
获取 file-id 后,您可以直接尝试使用该ID与模型进行对话。如果文件仍在解析中,API会返回相应的错误提示
File parsing in progress, please try again later.,此时请稍后重试。如果模型调用成功并返回了回复,则表示文件已解析完成,可以正常使用。文件上传后的解析过程是否会产生任何额外费用?
文件上传后的解析过程是否会产生任何额外费用?
文档解析并不会产生任何额外费用。
API参考
关于Qwen-Doc-Turbo模型的输入与输出参数,请参考DashScope chat。
错误码
如果模型调用失败并返回报错信息,请参见错误信息进行解决。
限制
-
SDK 依赖:
- 文件URL (doc_url): 文件URL方式当前仅支持DashScope协议,可以选择使用
DashScope Python SDK或者HTTP方式调用(如curl)。 - 上传文件 (file-id): 文件上传与管理操作必须使用
OpenAI兼容 SDK。
- 文件URL (doc_url): 文件URL方式当前仅支持DashScope协议,可以选择使用
-
文件上传与引用:
- 文件URL (
doc_url): 单次请求最多支持 10 个文件URL,且传入的URL需确保公网可访问。 - 上传文件 (
file-id): 单个文件不超过 150MB。单个千问云账号最多可上传 1 万个文件,总大小不超过 100GB,当前暂无有效期限制。单次请求最多引用 1 个文件。使用文件ID传入时,当文件数量或总大小达到任一上限时,新的文件上传请求将会失败。请参考OpenAI兼容-File,及时删除不再需要的文件以释放配额,然后才能继续上传。 - 支持格式:TXT, DOC, DOCX, PDF, XLS, XLSX, MD, PPT, PPTX, JPG, JPEG, PNG, GIF, BMP。
- 文件URL (
-
API 输入:
- 通过
doc_url或file-id引入信息时,上下文长度上限为 262,144 Token。 - 直接在
user或system消息中输入纯文本时,单条消息内容限制在 9,000 Token 以内。
- 通过
-
API 输出:
- 最大输出长度为 32,768 Token。
-
文件共享:
file-id仅在生成它的千问云账号内有效,不支持跨账号或通过 RAM 用户 API Key 调用。
- 限流:关于模型的限流条件,请参见限流。

