视觉理解模型

图像与视频理解

推荐从 qwen3.7-plus 开始，它是千问旗舰模型，支持 1M 上下文、最长 2 小时视频、Function Calling 和内置工具等完整功能。当您的场景稳定后，可以尝试 qwen3.6-flash 来降低成本，它提供接近旗舰的效果，并支持相同的上下文长度和功能集。

图像分辨率

大多数模型支持每张图片最高 1600 万像素。更高的分辨率会消耗更多 Token：每张图片的 Token 数计算公式为 h × w / (32 × 32) + 2。

视频支持

最长 2 小时 / 2GB：qwen3.7-plus、qwen3.6-plus、qwen3.6-flash、qwen3.5-plus、qwen3.5-flash
最长 1 小时 / 2GB：qwen3-vl-plus、qwen3-vl-flash
最长 1 小时 / 2GB：qwen3.5-omni-plus、qwen3.5-omni-flash（同时支持音频输入）

Function Calling与内置工具

让模型根据图像或视频中的内容执行操作。

Function Calling：Qwen3.6、Qwen3.5 和 Qwen3-VL 系列模型均支持
内置工具（联网搜索、代码执行，无需额外配置）：仅 qwen3.7-max-2026-06-08、qwen3.7-plus、qwen3.6-plus、qwen3.6-flash、qwen3.5-plus、qwen3.5-flash

OCR与文档提取

qwen-vl-ocr 专为文档、表格、试卷和手写内容的文字提取而优化。您也可以使用 qwen3.7-plus 或 qwen3.6-flash 进行通用图片文字提取。

模型	上下文	单张图片最大像素	最长视频时长	最大视频大小	最多图片数（URL）	最多图片数（Base64）	最多视频数	Function calling	内置工具	结构化输出	批量
`qwen3.7-plus`	1M	16M	2h	2GB	2,048	250	64	✓	✓	✓	✓
`qwen3.6-plus`	1M	16M	2h	2GB	256	250	64	✓	✓	✓	—
`qwen3.6-flash`	1M	16M	2h	2GB	256	250	64	✓	✓	✓	—
`qwen3.5-omni-plus`	256k	—	1h	2GB	2,048	250	512	✓	—	✓	—

全部模型

Qwen3.7

模型 ID	输入	输出	上下文	最大输出	最多图片数（URL）	最多图片数（Base64）	最多视频数	Function calling	内置工具	结构化输出	批量
`qwen3.7-max-2026-06-08`	文本、图片、视频	文本	1M	64k	2,048	250	64	✓	✓	—	—
`qwen3.7-plus`	文本、图片、视频	文本	1M	64k	2,048	250	64	✓	✓	✓	✓
`qwen3.7-plus-2026-05-26`	文本、图片、视频	文本	1M	64k	2,048	250	64	✓	✓	✓	—

Qwen3.6

模型 ID	输入	输出	上下文	最大输出	最多图片数（URL）	最多图片数（Base64）	最多视频数	Function calling	内置工具	结构化输出	批量
`qwen3.6-plus`	文本、图片、视频	文本	1M	64k	256	250	64	✓	✓	✓	—
`qwen3.6-plus-2026-04-02`	文本、图片、视频	文本	1M	64k	256	250	64	✓	✓	✓	—
`qwen3.6-flash`	文本、图片、视频	文本	1M	64k	256	250	64	✓	✓	✓	—
`qwen3.6-flash-2026-04-16`	文本、图片、视频	文本	1M	64k	256	250	64	✓	✓	✓	—
`qwen3.6-35b-a3b`	文本、图片、视频	文本	256k	64k	256	250	64	✓	✓	✓	—

Qwen3.5

模型 ID	输入	输出	上下文	最大输出	最多图片数（URL）	最多图片数（Base64）	最多视频数	Function calling	内置工具	结构化输出	批量
`qwen3.5-plus`	文本、图片、视频	文本	1M	64k	256	250	64	✓	✓	✓	—
`qwen3.5-plus-2026-02-15`	文本、图片、视频	文本	1M	64k	256	250	64	✓	✓	✓	—
`qwen3.5-flash`	文本、图片、视频	文本	1M	64k	256	250	64	✓	✓	✓	—
`qwen3.5-flash-2026-02-23`	文本、图片、视频	文本	1M	64k	256	250	64	✓	✓	✓	—
`qwen3.5-397b-a17b`	文本、图片、视频	文本	32k	8k	256	250	64	✓	✓	✓	—
`qwen3.5-122b-a10b`	文本、图片、视频	文本	32k	8k	256	250	64	✓	✓	✓	—
`qwen3.5-27b`	文本、图片、视频	文本	32k	8k	256	250	64	✓	✓	✓	—
`qwen3.5-35b-a3b`	文本、图片、视频	文本	32k	8k	256	250	64	✓	✓	✓	—

Qwen3.5-Omni

与本页其他模型不同，Qwen3.5-Omni 支持音频输入，并可同时输出文本和语音。标准模式

模型 ID	输入	输出	上下文	最大输出	最多图片数（URL）	最多图片数（Base64）	最多视频数	Function calling	内置工具	结构化输出	批量
`qwen3.5-omni-plus`	文本、图片、音频、视频	文本、音频	256k	64k	2,048	250	512	✓	—	✓	—
`qwen3.5-omni-plus-2026-03-15`	文本、图片、音频、视频	文本、音频	256k	64k	2,048	250	512	✓	—	✓	—
`qwen3.5-omni-flash`	文本、图片、音频、视频	文本、音频	256k	64k	2,048	250	512	✓	—	✓	—
`qwen3.5-omni-flash-2026-03-15`	文本、图片、音频、视频	文本、音频	256k	64k	2,048	250	512	✓	—	✓	—

实时模式 — 流式音频输入，内置语音活动检测（VAD）。

模型 ID	输入	输出	上下文	最大输出
`qwen3.5-omni-plus-realtime`	文本、图片、流式音频	文本、音频	256k	64k
`qwen3.5-omni-plus-realtime-2026-03-15`	文本、图片、流式音频	文本、音频	256k	64k
`qwen3.5-omni-flash-realtime`	文本、图片、流式音频	文本、音频	256k	64k
`qwen3.5-omni-flash-realtime-2026-03-15`	文本、图片、流式音频	文本、音频	256k	64k

Captioner（开源）— 音频描述模型。

模型 ID	输入	输出	上下文	最大输出	最多图片数（URL）	最多图片数（Base64）	最多视频数	Function calling	内置工具	结构化输出	批量
`qwen3-omni-30b-a3b-captioner`	音频	文本	64k	32k	—	—	—	—	—	—	—

Legacy

旧版模型，保留用于向后兼容。新项目推荐使用 Qwen3.6 或 Qwen3.5 系列。

模型 ID	输入	输出	上下文	最大输出	最多图片数（URL）	最多图片数（Base64）	最多视频数	Function calling	内置工具	结构化输出	批量
`qwen-vl-ocr`	文本、图片	文本	38k	8k	256	250	—	—	—	—	—
`qwen-vl-ocr-2025-11-20`	文本、图片	文本	38k	8k	256	250	—	—	—	—	—
`qwen3-vl-plus`	文本、图片、视频	文本	256k	32k	256	250	64	✓	—	✓	—
`qwen3-vl-plus-2026-01-25`	文本、图片、视频	文本	256k	32k	256	250	64	✓	—	✓	—
`qwen3-vl-plus-2025-12-19`	文本、图片、视频	文本	256k	32k	256	250	64	✓	—	✓	—
`qwen3-vl-plus-2025-09-23`	文本、图片、视频	文本	256k	32k	256	250	64	✓	—	✓	—
`qwen3-vl-flash`	文本、图片、视频	文本	256k	32k	256	250	64	✓	—	✓	—
`qwen3-vl-flash-2026-01-25`	文本、图片、视频	文本	256k	32k	256	250	64	✓	—	✓	—
`qwen3-vl-flash-2026-01-22`	文本、图片、视频	文本	256k	32k	256	250	64	✓	—	✓	—
`qwen3-vl-flash-2025-10-15`	文本、图片、视频	文本	256k	32k	256	250	64	✓	—	✓	—
`qwen3-omni-flash`	文本、图片、音频、视频	文本、音频	64k	16k	2,048	250	1	✓	—	—	—
`qwen3-omni-flash-2025-12-01`	文本、图片、音频、视频	文本、音频	64k	16k	2,048	250	1	✓	—	—	—
`qwen3-omni-flash-2025-10-22`	文本、图片、音频、视频	文本、音频	64k	16k	2,048	250	1	✓	—	—	—
`qwen3-omni-flash-2025-09-15`	文本、图片、音频、视频	文本、音频	64k	16k	2,048	250	1	✓	—	—	—
`qwen3-omni-flash-realtime`	文本、图片、流式音频	文本、音频	64k	16k	—	—	—	—	—	—	—
`qwen3-omni-flash-realtime-2025-12-01`	文本、图片、流式音频	文本、音频	64k	16k	—	—	—	—	—	—	—
`qwen3-omni-flash-realtime-2025-09-15`	文本、图片、流式音频	文本、音频	64k	16k	—	—	—	—	—	—	—
`qwen-omni-turbo`	文本、图片、音频、视频	文本、音频	32k	2k	2,048	250	1	—	—	—	—
`qwen-omni-turbo-latest`	文本、图片、音频、视频	文本、音频	32k	2k	2,048	250	1	—	—	—	—
`qwen-omni-turbo-2025-03-26`	文本、图片、音频、视频	文本、音频	32k	2k	2,048	250	1	—	—	—	—
`qwen-omni-turbo-2025-01-19`	文本、图片、音频、视频	文本、音频	32k	2k	2,048	250	1	—	—	—	—
`qwen-omni-turbo-realtime`	文本、流式音频	文本、音频	32k	2k	—	—	—	—	—	—	—
`qwen-omni-turbo-realtime-latest`	文本、流式音频	文本、音频	32k	2k	—	—	—	—	—	—	—
`qwen-omni-turbo-realtime-2025-05-08`	文本、流式音频	文本、音频	32k	2k	—	—	—	—	—	—	—
`qwen3-vl-235b-a22b-thinking`	文本、图片、视频	文本	128k	8k	256	250	64	✓	—	—	—
`qwen3-vl-235b-a22b-instruct`	文本、图片、视频	文本	128k	8k	256	250	64	✓	—	✓	—
`qwen3-vl-32b-thinking`	文本、图片、视频	文本	128k	8k	256	250	64	✓	—	—	—
`qwen3-vl-32b-instruct`	文本、图片、视频	文本	128k	8k	256	250	64	✓	—	✓	—
`qwen3-vl-30b-a3b-thinking`	文本、图片、视频	文本	128k	8k	256	250	64	✓	—	—	—
`qwen3-vl-30b-a3b-instruct`	文本、图片、视频	文本	128k	8k	256	250	64	✓	—	✓	—
`qwen3-vl-8b-thinking`	文本、图片、视频	文本	128k	8k	256	250	64	✓	—	—	—
`qwen3-vl-8b-instruct`	文本、图片、视频	文本	128k	8k	256	250	64	✓	—	✓	—
`qwen2.5-vl-72b-instruct`	文本、图片、视频	文本	128k	8k	256	250	64	✓	—	✓	—
`qwen2.5-vl-32b-instruct`	文本、图片、视频	文本	128k	8k	256	250	64	✓	—	✓	—
`qwen2.5-omni-7b`	文本、图片、音频、视频	文本、音频	32k	2k	2,048	250	1	—	—	—	—
`qwen-vl-max`	文本、图片	文本	32k	8k	256	250	—	—	—	—	—
`qwen-vl-max-latest`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-max-2025-08-13`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-max-2025-04-08`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-max-2025-04-02`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-max-2025-01-25`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-max-2024-12-30`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-max-2024-11-19`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-plus`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-plus-latest`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-plus-2025-08-15`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-plus-2025-07-10`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-plus-2025-05-07`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-plus-2025-01-25`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-plus-2025-01-02`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qvq-max`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qvq-max-latest`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qvq-max-2025-05-15`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qvq-max-2025-08-28`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qvq-max-2025-03-25`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qvq-plus`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qvq-plus-latest`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qvq-plus-2025-05-15`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qvq-plus-2025-08-27`	文本、图片	文本	128k	8k	256	250	—	—	—	—	—
`qwen-vl-ocr-latest`	文本、图片	文本	38k	8k	256	250	—	—	—	—	—
`qwen-vl-ocr-2025-08-28`	文本、图片	文本	38k	8k	256	250	—	—	—	—	—
`qwen-vl-ocr-2025-07-14`	文本、图片	文本	38k	8k	256	250	—	—	—	—	—
`qwen-vl-ocr-2025-04-13`	文本、图片	文本	38k	8k	256	250	—	—	—	—	—
`qwen-vl-ocr-2024-10-28`	文本、图片	文本	38k	8k	256	250	—	—	—	—	—

了解更多

视觉理解指南

了解如何向多模态模型发送图片和视频。

免费试用

在浏览器中试用模型，登录即可使用，无需配置 API Key。

千问云部署为模型提供专属推理服务，支持部署官方模型和自定义模型。部署后通过独立端点调用，享有资源独占、性能可配置等能力。

前提条件

一个千问云账号。请登录控制台。
可部署的模型：官方模型（如 Qwen 系列、DeepSeek、GLM 等）或通过微调任务发布的自定义模型。

创建部署

前往部署页面，点击创建部署打开向导。

1. 基本信息

部署名称：输入名称以标识此部署。
选择模型：从下拉菜单中选择可部署的模型。
模型代码：查看并可选自定义 API 调用时使用的模型代码后缀。

2. 配置

可用的计费方式取决于所选模型，具体请在创建部署时查看。

计费方式	说明	付费类型	计费公式
按 Token 计费	按实际消耗量计费，不使用不计费。仅支持部分 LoRA 微调模型	按量付费	`输入 Token × 输入单价 + 输出 Token × 输出单价`
按模型单元（MU）	资源独占，性能可配置。适合生产环境稳定算力需求	按量付费（按小时）/ 预付费（按月）	`模型单元数量 × 单价（元/小时）`
按预置吞吐（PTU）	预留吞吐保障，额度内不限速。适合高并发低延迟场景	按量付费（按小时）/ 预付费（按天）	`输入 kTPM × 输入单价 + 输出 kTPM × 输出单价（元/(kTPM·小时)）`

按模型单元（MU）计费配置

选择 MU 计费后，需额外配置：

部署模板：选择部署模板，不同模板对应不同的模型单元类型和资源配置。
部署副本数：设置副本数量，总模型单元 = 单副本模型单元 × 副本数。

模型单元（MU）部署的配额需联系客服或商务申请后提供。若创建部署时提示配额不足，请联系客服或您的商务对接人开通相应配额。

按预置吞吐（PTU）计费配置

选择 PTU 计费后，需配置输入和输出吞吐额度（单位 kTPM）：

按量付费：按实际使用时长计费。
预付费：选择购买时长，可开启自动续费。

部署创建后计费方式不可更改。如需切换，请删除部署并重新创建。

3. 费用估算

审核费用估算——计费方式、付费类型和预估价格——然后点击创建部署提交。

部署一旦达到运行中状态即开始计费，即使尚未发送任何推理请求。

创建后

提交后，部署进入部署中状态。配置通常需要几分钟。当状态变为运行中时，部署即可接收推理请求。您可以在部署列表点击试用，直接在控制台发送测试请求验证效果，无需编写代码。

调用已部署的模型

将部署的模型代码作为 chat completions API 的 model 参数。在部署页面的部署名称下方找到模型代码。

OpenAI-compatible (Python)
curl

import os
from openai import OpenAI

client = OpenAI(
  api_key=os.getenv("DASHSCOPE_API_KEY"),
  base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
  model="your-deployment-model-code",  # 替换为您的模型代码
  messages=[
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Explain quantum computing in simple terms."},
  ],
)
print(completion.choices[0].message.content)

curl "https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions" \
  -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "model": "your-deployment-model-code",
    "messages": [
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "Explain quantum computing in simple terms."}
    ]
  }'

下一步

管理部署 -- 监控、停止和删除您的部署。

​图像与视频理解

​图像分辨率

​视频支持

​Function Calling与内置工具

​OCR与文档提取

​推荐模型

​全部模型

​了解更多

视觉理解指南

免费试用

图像与视频理解

图像分辨率

视频支持

Function Calling与内置工具

OCR与文档提取

推荐模型

全部模型

了解更多