选择适合图像分析、视频理解、OCR等场景的模型。
图像与视频理解
推荐从 qwen3.6-plus 开始,它是千问旗舰模型,支持 1M 上下文、最长 2 小时视频、Function Calling 和内置工具等完整功能。当您的场景稳定后,可以尝试 qwen3.6-flash 来降低成本,它提供接近旗舰的效果,并支持相同的上下文长度和功能集。
图像分辨率
大多数模型支持每张图片最高 1600 万像素。更高的分辨率会消耗更多 Token:每张图片的 Token 数计算公式为 h × w / (32 × 32) + 2。
视频支持
- 最长 2 小时 / 2GB:
qwen3.6-plus、qwen3.6-flash、qwen3.5-plus、qwen3.5-flash - 最长 1 小时 / 2GB:
qwen3-vl-plus、qwen3-vl-flash - 最长 1 小时 / 2GB:
qwen3.5-omni-plus、qwen3.5-omni-flash(同时支持音频输入)
Function Calling与内置工具
让模型根据图像或视频中的内容执行操作。
- Function Calling:Qwen3.6、Qwen3.5 和 Qwen3-VL 系列模型均支持
- 内置工具(联网搜索、代码执行,无需额外配置):仅
qwen3.6-plus、qwen3.6-flash、qwen3.5-plus、qwen3.5-flash
结构化输出
从视觉输入中获取有效的 JSON 输出,例如从照片中提取商品信息。
Qwen3.6、Qwen3.5 和 Qwen3-VL 系列在非思考模式下支持此功能。
OCR与文档提取
qwen-vl-ocr 专为文档、表格、试卷和手写内容的文字提取而优化。您也可以使用 qwen3.6-plus 或 qwen3.6-flash 进行通用图片文字提取。
推荐模型
全部模型
Qwen3.6
Qwen3.6
| 模型 ID | 输入 | 输出 | 上下文 | 最大输出 | 最多图片数(URL) | 最多图片数(Base64) | 最多视频数 | Function calling | 内置工具 | 结构化输出 | 批量 | Token Plan | 显式缓存 | 隐式缓存 | 会话缓存 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
qwen3.6-plus | 文本、图片、视频 | 文本 | 1M | 64k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | ✓ | ✓ | — | ✓ |
qwen3.6-plus-2026-04-02 | 文本、图片、视频 | 文本 | 1M | 64k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | — | — | — | — |
qwen3.6-flash | 文本、图片、视频 | 文本 | 1M | 64k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | — | ✓ | — | ✓ |
qwen3.6-flash-2026-04-16 | 文本、图片、视频 | 文本 | 1M | 64k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | — | — | — | — |
qwen3.6-35b-a3b | 文本、图片、视频 | 文本 | 256k | 64k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | — | — | — | — |
Qwen3.5
Qwen3.5
| 模型 ID | 输入 | 输出 | 上下文 | 最大输出 | 最多图片数(URL) | 最多图片数(Base64) | 最多视频数 | Function calling | 内置工具 | 结构化输出 | 批量 | Token Plan | 显式缓存 | 隐式缓存 | 会话缓存 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
qwen3.5-plus | 文本、图片、视频 | 文本 | 1M | 64k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | — | ✓ | — | ✓ |
qwen3.5-plus-2026-02-15 | 文本、图片、视频 | 文本 | 1M | 64k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | — | — | — | — |
qwen3.5-flash | 文本、图片、视频 | 文本 | 1M | 64k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | — | ✓ | — | ✓ |
qwen3.5-flash-2026-02-23 | 文本、图片、视频 | 文本 | 1M | 64k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | — | — | — | — |
qwen3.5-397b-a17b | 文本、图片、视频 | 文本 | 32k | 8k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | — | — | — | — |
qwen3.5-122b-a10b | 文本、图片、视频 | 文本 | 32k | 8k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | — | — | — | — |
qwen3.5-27b | 文本、图片、视频 | 文本 | 32k | 8k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | — | — | — | — |
qwen3.5-35b-a3b | 文本、图片、视频 | 文本 | 32k | 8k | 256 | 250 | 64 | ✓ | ✓ | ✓ | — | — | — | — | — |
Qwen3.5-Omni
Qwen3.5-Omni
与本页其他模型不同,Qwen3.5-Omni 支持音频输入,并可同时输出文本和语音。标准模式
实时模式 — 流式音频输入,内置语音活动检测(VAD)。
Captioner(开源)— 音频描述模型。
| 模型 ID | 输入 | 输出 | 上下文 | 最大输出 | 最多图片数(URL) | 最多图片数(Base64) | 最多视频数 | Function calling | 内置工具 | 结构化输出 | 批量 | 显式缓存 | 隐式缓存 | 会话缓存 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
qwen3.5-omni-plus | 文本、图片、音频、视频 | 文本、音频 | 256k | 64k | 2,048 | 250 | 512 | ✓ | — | ✓ | — | — | — | — |
qwen3.5-omni-plus-2026-03-15 | 文本、图片、音频、视频 | 文本、音频 | 256k | 64k | 2,048 | 250 | 512 | ✓ | — | ✓ | — | — | — | — |
qwen3.5-omni-flash | 文本、图片、音频、视频 | 文本、音频 | 256k | 64k | 2,048 | 250 | 512 | ✓ | — | ✓ | — | — | — | — |
qwen3.5-omni-flash-2026-03-15 | 文本、图片、音频、视频 | 文本、音频 | 256k | 64k | 2,048 | 250 | 512 | ✓ | — | ✓ | — | — | — | — |
| 模型 ID | 输入 | 输出 | 上下文 | 最大输出 |
|---|---|---|---|---|
qwen3.5-omni-plus-realtime | 文本、图片、流式音频 | 文本、音频 | 256k | 64k |
qwen3.5-omni-plus-realtime-2026-03-15 | 文本、图片、流式音频 | 文本、音频 | 256k | 64k |
qwen3.5-omni-flash-realtime | 文本、图片、流式音频 | 文本、音频 | 256k | 64k |
qwen3.5-omni-flash-realtime-2026-03-15 | 文本、图片、流式音频 | 文本、音频 | 256k | 64k |
Legacy
Legacy
旧版模型,保留用于向后兼容。新项目推荐使用 Qwen3.6 或 Qwen3.5 系列。
| 模型 ID | 输入 | 输出 | 上下文 | 最大输出 | 最多图片数(URL) | 最多图片数(Base64) | 最多视频数 | Function calling | 内置工具 | 结构化输出 | 批量 | 显式缓存 | 隐式缓存 | 会话缓存 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
qwen-vl-ocr | 文本、图片 | 文本 | 38k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-ocr-2025-11-20 | 文本、图片 | 文本 | 38k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen3-vl-plus | 文本、图片、视频 | 文本 | 256k | 32k | 256 | 250 | 64 | ✓ | — | ✓ | — | ✓ | ✓ | — |
qwen3-vl-plus-2026-01-25 | 文本、图片、视频 | 文本 | 256k | 32k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen3-vl-plus-2025-12-19 | 文本、图片、视频 | 文本 | 256k | 32k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen3-vl-plus-2025-09-23 | 文本、图片、视频 | 文本 | 256k | 32k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen3-vl-flash | 文本、图片、视频 | 文本 | 256k | 32k | 256 | 250 | 64 | ✓ | — | ✓ | — | ✓ | ✓ | — |
qwen3-vl-flash-2026-01-25 | 文本、图片、视频 | 文本 | 256k | 32k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen3-vl-flash-2026-01-22 | 文本、图片、视频 | 文本 | 256k | 32k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen3-vl-flash-2025-10-15 | 文本、图片、视频 | 文本 | 256k | 32k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen3-omni-flash | 文本、图片、音频、视频 | 文本、音频 | 64k | 16k | 2,048 | 250 | 1 | ✓ | — | — | — | — | — | — |
qwen3-omni-flash-2025-12-01 | 文本、图片、音频、视频 | 文本、音频 | 64k | 16k | 2,048 | 250 | 1 | ✓ | — | — | — | — | — | — |
qwen3-omni-flash-2025-10-22 | 文本、图片、音频、视频 | 文本、音频 | 64k | 16k | 2,048 | 250 | 1 | ✓ | — | — | — | — | — | — |
qwen3-omni-flash-2025-09-15 | 文本、图片、音频、视频 | 文本、音频 | 64k | 16k | 2,048 | 250 | 1 | ✓ | — | — | — | — | — | — |
qwen3-omni-flash-realtime | 文本、图片、流式音频 | 文本、音频 | 64k | 16k | — | — | — | — | — | — | — | — | — | — |
qwen3-omni-flash-realtime-2025-12-01 | 文本、图片、流式音频 | 文本、音频 | 64k | 16k | — | — | — | — | — | — | — | — | — | — |
qwen3-omni-flash-realtime-2025-09-15 | 文本、图片、流式音频 | 文本、音频 | 64k | 16k | — | — | — | — | — | — | — | — | — | — |
qwen-omni-turbo | 文本、图片、音频、视频 | 文本、音频 | 32k | 2k | 2,048 | 250 | 1 | — | — | — | — | — | — | — |
qwen-omni-turbo-latest | 文本、图片、音频、视频 | 文本、音频 | 32k | 2k | 2,048 | 250 | 1 | — | — | — | — | — | — | — |
qwen-omni-turbo-2025-03-26 | 文本、图片、音频、视频 | 文本、音频 | 32k | 2k | 2,048 | 250 | 1 | — | — | — | — | — | — | — |
qwen-omni-turbo-2025-01-19 | 文本、图片、音频、视频 | 文本、音频 | 32k | 2k | 2,048 | 250 | 1 | — | — | — | — | — | — | — |
qwen-omni-turbo-realtime | 文本、流式音频 | 文本、音频 | 32k | 2k | — | — | — | — | — | — | — | — | — | — |
qwen-omni-turbo-realtime-latest | 文本、流式音频 | 文本、音频 | 32k | 2k | — | — | — | — | — | — | — | — | — | — |
qwen-omni-turbo-realtime-2025-05-08 | 文本、流式音频 | 文本、音频 | 32k | 2k | — | — | — | — | — | — | — | — | — | — |
qwen3-vl-235b-a22b-thinking | 文本、图片、视频 | 文本 | 128k | 8k | 256 | 250 | 64 | ✓ | — | — | — | — | — | — |
qwen3-vl-235b-a22b-instruct | 文本、图片、视频 | 文本 | 128k | 8k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen3-vl-32b-thinking | 文本、图片、视频 | 文本 | 128k | 8k | 256 | 250 | 64 | ✓ | — | — | — | — | — | — |
qwen3-vl-32b-instruct | 文本、图片、视频 | 文本 | 128k | 8k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen3-vl-30b-a3b-thinking | 文本、图片、视频 | 文本 | 128k | 8k | 256 | 250 | 64 | ✓ | — | — | — | — | — | — |
qwen3-vl-30b-a3b-instruct | 文本、图片、视频 | 文本 | 128k | 8k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen3-vl-8b-thinking | 文本、图片、视频 | 文本 | 128k | 8k | 256 | 250 | 64 | ✓ | — | — | — | — | — | — |
qwen3-vl-8b-instruct | 文本、图片、视频 | 文本 | 128k | 8k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen2.5-vl-72b-instruct | 文本、图片、视频 | 文本 | 128k | 8k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen2.5-vl-32b-instruct | 文本、图片、视频 | 文本 | 128k | 8k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen2.5-vl-7b-instruct | 文本、图片、视频 | 文本 | 128k | 8k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen2.5-vl-3b-instruct | 文本、图片、视频 | 文本 | 128k | 8k | 256 | 250 | 64 | ✓ | — | ✓ | — | — | — | — |
qwen2.5-omni-7b | 文本、图片、音频、视频 | 文本、音频 | 32k | 2k | 2,048 | 250 | 1 | — | — | — | — | — | — | — |
qwen-vl-max | 文本、图片 | 文本 | 32k | 8k | 256 | 250 | — | — | — | — | — | — | ✓ | — |
qwen-vl-max-latest | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-max-2025-08-13 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-max-2025-04-08 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-max-2025-04-02 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-max-2025-01-25 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-max-2024-12-30 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-max-2024-11-19 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-plus | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | ✓ | — |
qwen-vl-plus-latest | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-plus-2025-08-15 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-plus-2025-07-10 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-plus-2025-05-07 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-plus-2025-01-25 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-plus-2025-01-02 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qvq-max | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qvq-max-latest | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qvq-max-2025-05-15 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qvq-max-2025-08-28 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qvq-max-2025-03-25 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qvq-plus | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qvq-plus-latest | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qvq-plus-2025-05-15 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qvq-plus-2025-08-27 | 文本、图片 | 文本 | 128k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-ocr-latest | 文本、图片 | 文本 | 38k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-ocr-2025-08-28 | 文本、图片 | 文本 | 38k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-ocr-2025-07-14 | 文本、图片 | 文本 | 38k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-ocr-2025-04-13 | 文本、图片 | 文本 | 38k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |
qwen-vl-ocr-2024-10-28 | 文本、图片 | 文本 | 38k | 8k | 256 | 250 | — | — | — | — | — | — | — | — |

