Qwen-OCR 文字提取模型

POST

/api/v1/services/aigc/multimodal-generation/generation

import os
import dashscope

dashscope.base_http_api_url = 'https://dashscope.aliyuncs.com/api/v1'

messages = [{
      "role": "user",
      "content": [{
        "image": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20241108/ctdzex/biaozhun.jpg",
        # 输入图像的最小像素阈值。如果图像小于该值，则图像会被放大，直到总像素数大于 min_pixels。
        "min_pixels": 32 * 32 * 3,
        # 输入图像的最大像素阈值。如果图像大于该值，则图像会被缩小，直到总像素数小于 max_pixels。
        "max_pixels": 32 * 32 * 8192,
        # 指定是否开启图像自动旋转。
        "enable_rotate": False}]
      }]
      
response = dashscope.MultiModalConversation.call(
  # 如果未配置环境变量，请将下行替换为您的 API Key：api_key="sk-xxx",
  api_key=os.getenv('DASHSCOPE_API_KEY'),
  model='qwen-vl-ocr-latest',
  messages=messages,
  # 将内置任务设置为高精度识别。
  ocr_options={"task": "advanced_recognition"}
)
# 高精度识别任务以纯文本形式返回结果。
print(response["output"]["choices"][0]["message"].content[0]["text"])

{
  "status_code": 0,
  "request_id": "<string>",
  "code": "<string>",
  "message": "<string>",
  "output": {
    "text": "<string>",
    "finish_reason": "<string>",
    "choices": [
      {
        "finish_reason": "<string>",
        "message": {
          "role": "assistant",
          "content": [
            {
              "text": "<string>",
              "ocr_result": {
                "kv_result": {},
                "words_info": [
                  {
                    "rotate_rect": [
                      0
                    ],
                    "location": [
                      0
                    ],
                    "text": "<string>"
                  }
                ]
              }
            }
          ],
          "logprobs": {
            "content": [
              {
                "token": "<string>",
                "bytes": [
                  0
                ],
                "logprob": 0,
                "top_logprobs": [
                  {
                    "token": "<string>",
                    "bytes": [
                      0
                    ],
                    "logprob": 0
                  }
                ]
              }
            ]
          }
        }
      }
    ]
  },
  "usage": {
    "input_tokens": 0,
    "output_tokens": 0,
    "total_tokens": 0,
    "characters": 0,
    "image_tokens": 0,
    "input_tokens_details": {
      "image_tokens": 0,
      "text_tokens": 0
    },
    "output_tokens_details": {
      "text_tokens": 0
    }
  }
}

鉴权

string

header

必填

千问云 API Key。详见获取 API Key。

请求体

application/json

string

必填

模型名称。支持的模型列表请参见 Qwen-OCR。

示例:qwen-vl-ocr-latest

object

必填

包含消息的输入对象。

显示子属性

object[]

必填

以消息序列形式提供给模型的上下文。

显示子属性

enum<string>

必填

必须为 user。

可选值：user

object[]

必填

消息内容，图像输入使用数组格式。

显示子属性

string

输入文本。默认值：Please output only the text content from the image without any additional descriptions or formatting.

string

图像的 URL、Base64 Data URL 或本地路径。有关传入本地文件的更多信息，请参见传入本地文件。

boolean

默认值false

是否对倾斜图像进行校正。

integer

输入图像的最小像素阈值（单位：像素）。如果输入图像的像素数低于 min_pixels，则图像会被放大，直到总像素数超过 min_pixels。

图像 token 与像素的换算关系：

qwen-vl-ocr-latest、qwen-vl-ocr-latest：每个 token 对应 32×32 像素。
qwen-vl-ocr、qwen-vl-ocr-2025-08-28 及更早版本：每个 token 对应 28×28 像素。

取值范围：

qwen-vl-ocr-latest、qwen-vl-ocr-latest：默认值和最小值为 3072（3×32×32）。
qwen-vl-ocr、qwen-vl-ocr-2025-08-28 及更早版本：默认值和最小值为 3136（4×28×28）。

integer

输入图像的最大像素阈值（单位：像素）。如果输入图像的像素数在 [min_pixels, max_pixels] 范围内，模型将直接处理原始图像，不进行缩放。如果像素数超过 max_pixels，则图像会被缩小，直到像素数小于 max_pixels。

图像 token 与像素的换算关系：

qwen-vl-ocr-latest、qwen-vl-ocr-latest：每个 token 对应 32×32 像素。
qwen-vl-ocr、qwen-vl-ocr-2025-08-28 及更早版本：每个 token 对应 28×28 像素。

取值范围：

qwen-vl-ocr-latest、qwen-vl-ocr-latest：默认值 8388608（8192×32×32），最大值 30720000（30000×32×32）。
qwen-vl-ocr、qwen-vl-ocr-2025-08-28 及更早版本：默认值 6422528（8192×28×28），最大值 23520000（30000×28×28）。

object

模型参数。

显示子属性

object

内置 OCR 任务的配置项。使用内置任务时，模型会使用默认提示词，无需在用户消息中传入文本。最低 SDK 版本要求：Python 1.22.2，Java 2.18.4。

显示子属性

enum<string>

内置任务名称。

可选值：text_recognition,key_information_extraction,document_parsing,table_parsing,formula_recognition,multi_lan,advanced_recognition

object

key_information_extraction 任务的配置项，用于指定要提取的字段。如果省略，则提取所有字段。

显示子属性

object

指定要提取字段的 JSON 对象。键为字段名，值为字段描述或格式要求。最多支持 3 层嵌套。

integer

输出的最大 token 数。如果生成内容超过该值，响应将被截断。

对于 qwen-vl-ocr-latest、qwen-vl-ocr-latest 和 qwen-vl-ocr-2024-10-28，默认值和最大值与模型的最大输出长度相同。
对于 qwen-vl-ocr、qwen-vl-ocr-2025-04-13 和 qwen-vl-ocr-2025-08-28，默认值和最大值均为 4096。

integer

用于复现结果的随机数种子。取值范围：[0, 2^31−1]。

number

默认值0.01

采样温度。值越高越多样，值越低越确定。取值范围：[0, 2)。temperature 和 top_p 只能设置其中之一。

number

默认值0.001

核采样阈值。取值范围：(0, 1.0]。temperature 和 top_p 只能设置其中之一。

integer

默认值1

采样候选集大小。值越大随机性越高。必须 >= 0。

number

默认值1

重复序列的惩罚系数。1.0 表示不惩罚。

number

默认值0

控制内容重复程度。取值范围：[-2.0, 2.0]。

string

停止词。可以是字符串或数组。stop 为数组时，不能混用 token_id 和字符串。

boolean

默认值false

是否返回对数概率。支持的版本：qwen-vl-ocr-2025-04-13 及更高版本。

integer

默认值0

每个生成步骤中返回的最可能 token 数量。取值范围：[0, 5]。仅在 logprobs 为 true 时生效。

boolean

默认值false

流式输出时，true 表示每个数据块仅返回新生成的内容；false 表示返回累积的完整内容。

boolean

默认值false

指定是否流式返回响应。

Python SDK：在调用时设置 stream=True。
Java SDK：使用 streamCall 接口。
HTTP：在请求头中设置 X-DashScope-SSE: enable。

响应

200-application/json

integer

请求状态码。200 表示成功。Java SDK 不返回此字段。

string

本次调用的唯一标识符。Java SDK 返回 requestId。

string

错误码。成功时为空。仅由 Python SDK 返回。

string

错误信息。成功时为空。

object

调用结果信息。

显示子属性

string | null

当前固定为 null。

string | null

生成中为 null，完成时为 stop，截断时为 length。

object[]

模型输出。

显示子属性

string | null

生成中为 null，完成时为 stop，截断时为 length。

object

显示子属性

enum<string>

始终为 assistant。

可选值：assistant

object[]

输出消息内容。

显示子属性

string

输出的文本内容。

object

信息提取（key_information_extraction）和高精度识别（advanced_recognition）任务的返回结果。

显示子属性

object

信息提取任务的结果。

object[]

高精度识别任务的结果。

显示子属性

number[]

旋转矩形 [center_x, center_y, width, height, angle]。angle 取值范围：[-90, 90]。

number[]

四顶点坐标 [x1,y1,x2,y2,x3,y3,x4,y4]，从左上角顺时针排列。

string

文本行内容。

object | null

对数概率信息。

显示子属性

object[]

显示子属性

string

integer[]

token 的 UTF-8 字节序列。

number | null

object[]

显示子属性

string

integer[]

number | null

object

Token 用量信息。

显示子属性

integer

输入 token 数量。

integer

输出 token 数量。

integer

input_tokens 和 output_tokens 的总和。

integer

当前固定为 0。

integer

图像输入的 token 数量。

object

显示子属性

integer

图像输入的 token 数量。

integer

文本输入的 token 数量。

object

显示子属性

integer

模型输出的 token 数量。