跳转到主要内容
视觉理解

视觉理解模型

选择适合图像分析、视频理解、OCR等场景的模型。

图像与视频理解

推荐从 qwen3.6-plus 开始,它是千问旗舰模型,支持 1M 上下文、最长 2 小时视频、Function Calling 和内置工具等完整功能。当您的场景稳定后,可以尝试 qwen3.6-flash 来降低成本,它提供接近旗舰的效果,并支持相同的上下文长度和功能集。

图像分辨率

大多数模型支持每张图片最高 1600 万像素。更高的分辨率会消耗更多 Token:每张图片的 Token 数计算公式为 h × w / (32 × 32) + 2

视频支持

  • 最长 2 小时 / 2GB:qwen3.6-plusqwen3.6-flashqwen3.5-plusqwen3.5-flash
  • 最长 1 小时 / 2GB:qwen3-vl-plusqwen3-vl-flash
  • 最长 1 小时 / 2GB:qwen3.5-omni-plusqwen3.5-omni-flash(同时支持音频输入)

Function Calling与内置工具

让模型根据图像或视频中的内容执行操作。
  • Function Calling:Qwen3.6、Qwen3.5 和 Qwen3-VL 系列模型均支持
  • 内置工具(联网搜索、代码执行,无需额外配置):仅 qwen3.6-plusqwen3.6-flashqwen3.5-plusqwen3.5-flash

结构化输出

从视觉输入中获取有效的 JSON 输出,例如从照片中提取商品信息。 Qwen3.6、Qwen3.5 和 Qwen3-VL 系列在非思考模式下支持此功能。

OCR与文档提取

qwen-vl-ocr 专为文档、表格、试卷和手写内容的文字提取而优化。您也可以使用 qwen3.6-plusqwen3.6-flash 进行通用图片文字提取。

推荐模型

模型上下文单张图片最大像素最长视频时长最大视频大小最多图片数(URL)最多图片数(Base64)最多视频数Function calling内置工具结构化输出批量显式缓存隐式缓存会话缓存
qwen3.6-plus1M16M2h2GB25625064
qwen3.6-flash1M16M2h2GB25625064
qwen3.5-omni-plus256k1h2GB2,048250512

全部模型

模型 ID输入输出上下文最大输出最多图片数(URL)最多图片数(Base64)最多视频数Function calling内置工具结构化输出批量Token Plan显式缓存隐式缓存会话缓存
qwen3.6-plus文本、图片、视频文本1M64k25625064
qwen3.6-plus-2026-04-02文本、图片、视频文本1M64k25625064
qwen3.6-flash文本、图片、视频文本1M64k25625064
qwen3.6-flash-2026-04-16文本、图片、视频文本1M64k25625064
qwen3.6-35b-a3b文本、图片、视频文本256k64k25625064
模型 ID输入输出上下文最大输出最多图片数(URL)最多图片数(Base64)最多视频数Function calling内置工具结构化输出批量Token Plan显式缓存隐式缓存会话缓存
qwen3.5-plus文本、图片、视频文本1M64k25625064
qwen3.5-plus-2026-02-15文本、图片、视频文本1M64k25625064
qwen3.5-flash文本、图片、视频文本1M64k25625064
qwen3.5-flash-2026-02-23文本、图片、视频文本1M64k25625064
qwen3.5-397b-a17b文本、图片、视频文本32k8k25625064
qwen3.5-122b-a10b文本、图片、视频文本32k8k25625064
qwen3.5-27b文本、图片、视频文本32k8k25625064
qwen3.5-35b-a3b文本、图片、视频文本32k8k25625064
与本页其他模型不同,Qwen3.5-Omni 支持音频输入,并可同时输出文本和语音。标准模式
模型 ID输入输出上下文最大输出最多图片数(URL)最多图片数(Base64)最多视频数Function calling内置工具结构化输出批量显式缓存隐式缓存会话缓存
qwen3.5-omni-plus文本、图片、音频、视频文本、音频256k64k2,048250512
qwen3.5-omni-plus-2026-03-15文本、图片、音频、视频文本、音频256k64k2,048250512
qwen3.5-omni-flash文本、图片、音频、视频文本、音频256k64k2,048250512
qwen3.5-omni-flash-2026-03-15文本、图片、音频、视频文本、音频256k64k2,048250512
实时模式 — 流式音频输入,内置语音活动检测(VAD)。
模型 ID输入输出上下文最大输出
qwen3.5-omni-plus-realtime文本、图片、流式音频文本、音频256k64k
qwen3.5-omni-plus-realtime-2026-03-15文本、图片、流式音频文本、音频256k64k
qwen3.5-omni-flash-realtime文本、图片、流式音频文本、音频256k64k
qwen3.5-omni-flash-realtime-2026-03-15文本、图片、流式音频文本、音频256k64k
Captioner(开源)— 音频描述模型。
模型 ID输入输出上下文最大输出最多图片数(URL)最多图片数(Base64)最多视频数Function calling内置工具结构化输出批量显式缓存隐式缓存会话缓存
qwen3-omni-30b-a3b-captioner音频文本64k32k
旧版模型,保留用于向后兼容。新项目推荐使用 Qwen3.6 或 Qwen3.5 系列。
模型 ID输入输出上下文最大输出最多图片数(URL)最多图片数(Base64)最多视频数Function calling内置工具结构化输出批量显式缓存隐式缓存会话缓存
qwen-vl-ocr文本、图片文本38k8k256250
qwen-vl-ocr-2025-11-20文本、图片文本38k8k256250
qwen3-vl-plus文本、图片、视频文本256k32k25625064
qwen3-vl-plus-2026-01-25文本、图片、视频文本256k32k25625064
qwen3-vl-plus-2025-12-19文本、图片、视频文本256k32k25625064
qwen3-vl-plus-2025-09-23文本、图片、视频文本256k32k25625064
qwen3-vl-flash文本、图片、视频文本256k32k25625064
qwen3-vl-flash-2026-01-25文本、图片、视频文本256k32k25625064
qwen3-vl-flash-2026-01-22文本、图片、视频文本256k32k25625064
qwen3-vl-flash-2025-10-15文本、图片、视频文本256k32k25625064
qwen3-omni-flash文本、图片、音频、视频文本、音频64k16k2,0482501
qwen3-omni-flash-2025-12-01文本、图片、音频、视频文本、音频64k16k2,0482501
qwen3-omni-flash-2025-10-22文本、图片、音频、视频文本、音频64k16k2,0482501
qwen3-omni-flash-2025-09-15文本、图片、音频、视频文本、音频64k16k2,0482501
qwen3-omni-flash-realtime文本、图片、流式音频文本、音频64k16k
qwen3-omni-flash-realtime-2025-12-01文本、图片、流式音频文本、音频64k16k
qwen3-omni-flash-realtime-2025-09-15文本、图片、流式音频文本、音频64k16k
qwen-omni-turbo文本、图片、音频、视频文本、音频32k2k2,0482501
qwen-omni-turbo-latest文本、图片、音频、视频文本、音频32k2k2,0482501
qwen-omni-turbo-2025-03-26文本、图片、音频、视频文本、音频32k2k2,0482501
qwen-omni-turbo-2025-01-19文本、图片、音频、视频文本、音频32k2k2,0482501
qwen-omni-turbo-realtime文本、流式音频文本、音频32k2k
qwen-omni-turbo-realtime-latest文本、流式音频文本、音频32k2k
qwen-omni-turbo-realtime-2025-05-08文本、流式音频文本、音频32k2k
qwen3-vl-235b-a22b-thinking文本、图片、视频文本128k8k25625064
qwen3-vl-235b-a22b-instruct文本、图片、视频文本128k8k25625064
qwen3-vl-32b-thinking文本、图片、视频文本128k8k25625064
qwen3-vl-32b-instruct文本、图片、视频文本128k8k25625064
qwen3-vl-30b-a3b-thinking文本、图片、视频文本128k8k25625064
qwen3-vl-30b-a3b-instruct文本、图片、视频文本128k8k25625064
qwen3-vl-8b-thinking文本、图片、视频文本128k8k25625064
qwen3-vl-8b-instruct文本、图片、视频文本128k8k25625064
qwen2.5-vl-72b-instruct文本、图片、视频文本128k8k25625064
qwen2.5-vl-32b-instruct文本、图片、视频文本128k8k25625064
qwen2.5-vl-7b-instruct文本、图片、视频文本128k8k25625064
qwen2.5-vl-3b-instruct文本、图片、视频文本128k8k25625064
qwen2.5-omni-7b文本、图片、音频、视频文本、音频32k2k2,0482501
qwen-vl-max文本、图片文本32k8k256250
qwen-vl-max-latest文本、图片文本128k8k256250
qwen-vl-max-2025-08-13文本、图片文本128k8k256250
qwen-vl-max-2025-04-08文本、图片文本128k8k256250
qwen-vl-max-2025-04-02文本、图片文本128k8k256250
qwen-vl-max-2025-01-25文本、图片文本128k8k256250
qwen-vl-max-2024-12-30文本、图片文本128k8k256250
qwen-vl-max-2024-11-19文本、图片文本128k8k256250
qwen-vl-plus文本、图片文本128k8k256250
qwen-vl-plus-latest文本、图片文本128k8k256250
qwen-vl-plus-2025-08-15文本、图片文本128k8k256250
qwen-vl-plus-2025-07-10文本、图片文本128k8k256250
qwen-vl-plus-2025-05-07文本、图片文本128k8k256250
qwen-vl-plus-2025-01-25文本、图片文本128k8k256250
qwen-vl-plus-2025-01-02文本、图片文本128k8k256250
qvq-max文本、图片文本128k8k256250
qvq-max-latest文本、图片文本128k8k256250
qvq-max-2025-05-15文本、图片文本128k8k256250
qvq-max-2025-08-28文本、图片文本128k8k256250
qvq-max-2025-03-25文本、图片文本128k8k256250
qvq-plus文本、图片文本128k8k256250
qvq-plus-latest文本、图片文本128k8k256250
qvq-plus-2025-05-15文本、图片文本128k8k256250
qvq-plus-2025-08-27文本、图片文本128k8k256250
qwen-vl-ocr-latest文本、图片文本38k8k256250
qwen-vl-ocr-2025-08-28文本、图片文本38k8k256250
qwen-vl-ocr-2025-07-14文本、图片文本38k8k256250
qwen-vl-ocr-2025-04-13文本、图片文本38k8k256250
qwen-vl-ocr-2024-10-28文本、图片文本38k8k256250

了解更多