选择适合语音对话、语音翻译等场景的模型。
S2S 与 Pipeline 对比
构建语音应用有两种方式:
| S2S | Pipeline(ASR + LLM + TTS) | |
|---|---|---|
| 延迟 | 低 — 单模型,流式输出 | 较高 — 需经过 3 个串行环节 |
| 音频理解 | 端到端 — 能感知语气、情感并做出相应回应 | 先转文字再处理 — 音频细节丢失 |
| 语音定制 | 通过 system prompt 选择预设音色 | 支持声音克隆、声音设计(CosyVoice) |
实时还是文件?
-
实时(WebSocket)— 适用于实时语音交互场景:语音助手、呼叫中心、同声传译。音频流式输入,语音流式输出。模型名称包含
-realtime。 - 文件(HTTP)— 适用于可以牺牲延迟换取更好效果的场景:视频配音、播客翻译、离线内容处理。支持 function calling(Qwen3.5-Omni、Qwen3-Omni-Flash)、联网搜索(Qwen3.5-Omni)、思考模式(Qwen3-Omni-Flash)和视频上下文(Livetranslate)。
Function calling
让模型根据所听到和看到的内容执行操作 — 查询知识库、查看日程、触发工作流。使用 qwen3.5-omni-plus(HTTP)、qwen3.5-omni-flash(HTTP)或 qwen3-omni-flash(HTTP)。实时模式和 Livetranslate 模型不支持此功能。
联网搜索
让模型检索实时信息,回答关于时事、股价、天气等问题。使用 qwen3.5-omni-plus(HTTP)或 qwen3.5-omni-plus-realtime(WebSocket)。模型会自主判断是否需要搜索。Qwen3-Omni-Flash 和 Livetranslate 模型不支持此功能。
思考模式
使用 qwen3-omni-flash(HTTP),适用于回答质量比延迟更重要的场景。模型会先逐步推理再生成语音 — 适合技术支持、复杂问答或多步骤指引。Qwen3.5-Omni 模型不支持此功能。
翻译
三个模型系列都支持语音翻译:
- Qwen3.5-Livetranslate — 支持 60 种语言互译(29 种音频+文本输出、31 种仅文本输出),约 3 秒延迟,开箱即用。文件模式支持视频输入以提升翻译准确性。
- Qwen3.5-Omni — 支持 29 种输出语言 + 7 种中文方言。音视频理解能力更强,支持联网搜索。可通过 system prompt 注入术语和领域上下文。支持实时和文件两种模式。
- Qwen3-Omni-Flash — 支持 11 种输出语言 + 8 种中文方言。可通过 system prompt 注入术语和领域上下文,适用于专业领域翻译。支持实时和文件两种模式。成本更低。
快速上手选 Qwen3.5-Livetranslate(60 种语言,约 3 秒延迟);追求最佳质量和最广语言覆盖选 Qwen3.5-Omni;控制成本选 Qwen3-Omni-Flash。
支持的语言
支持的语言
| 语言 | Qwen3.5-Livetranslate | Qwen3-Livetranslate | Qwen3.5-Omni | Qwen3-Omni-Flash |
|---|---|---|---|---|
| 英语 | ✓ | ✓ | ✓ | ✓ |
| 中文(普通话) | ✓ | ✓ | ✓ | ✓ |
| + 粤语 | 仅文本 | ✓ | ✓ | ✓ |
| + 四川话 | — | ✓ | ✓ | ✓ |
| + 上海话 | — | ✓ | ✓ | ✓ |
| + 北京话 | — | ✓ | ✓ | ✓ |
| + 天津话 | — | ✓ | ✓ | ✓ |
| + 南京话 | — | — | ✓ | ✓ |
| + 陕西话 | — | — | ✓ | ✓ |
| + 闽南语 | — | — | ✓ | ✓ |
| 法语 | ✓ | ✓ | ✓ | ✓ |
| 德语 | ✓ | ✓ | ✓ | ✓ |
| 俄语 | ✓ | ✓ | ✓ | ✓ |
| 意大利语 | ✓ | ✓ | ✓ | ✓ |
| 西班牙语 | ✓ | ✓ | ✓ | ✓ |
| 葡萄牙语 | ✓ | ✓ | ✓ | ✓ |
| 日语 | ✓ | ✓ | ✓ | ✓ |
| 韩语 | ✓ | ✓ | ✓ | ✓ |
| 阿拉伯语 | ✓ | 仅文本 | ✓ | — |
| 泰语 | ✓ | 仅文本 | ✓ | ✓ |
| 越南语 | ✓ | 仅文本 | ✓ | — |
| 印尼语 | ✓ | 仅文本 | ✓ | — |
| 土耳其语 | ✓ | 仅文本 | ✓ | — |
| 印地语 | ✓ | 仅文本 | ✓ | — |
| 马来语 | ✓ | — | ✓ | — |
| 荷兰语 | ✓ | — | ✓ | — |
| 乌尔都语 | ✓ | — | ✓ | — |
| 挪威语 | ✓ | — | ✓ | — |
| 瑞典语 | ✓ | — | ✓ | — |
| 丹麦语 | ✓ | — | ✓ | — |
| 希伯来语 | ✓ | — | ✓ | — |
| 芬兰语 | ✓ | — | ✓ | — |
| 波兰语 | ✓ | — | ✓ | — |
| 冰岛语 | ✓ | — | ✓ | — |
| 捷克语 | ✓ | — | ✓ | — |
| 菲律宾语 | ✓ | — | ✓ | — |
| 波斯语 | ✓ | — | ✓ | — |
| 希腊语 | 仅文本 | 仅文本 | — | — |
qwen-omni-turbo 仅支持中文和英语。推荐模型
| 模型 | API | 输入 | Function calling | 联网搜索 | 思考模式 | 批量 |
|---|---|---|---|---|---|---|
qwen3.5-omni-plus-realtime | WebSocket | 文本、音频、图像、视频 | — | ✓ | — | — |
qwen3.5-omni-plus | HTTP | 文本、音频、图像、视频 | ✓ | ✓ | — | — |
qwen3.5-omni-flash-realtime | WebSocket | 文本、音频、图像、视频 | — | ✓ | — | — |
qwen3.5-omni-flash | HTTP | 文本、音频、图像、视频 | ✓ | ✓ | — | — |
qwen3-omni-flash-realtime | WebSocket | 文本、音频、图像、视频 | — | — | — | — |
qwen3-omni-flash | HTTP | 文本、音频、图像、视频 | ✓ | — | ✓ | — |
qwen3.5-livetranslate-flash-realtime | WebSocket | 音频 | — | — | — | — |
qwen3.5-livetranslate-flash | HTTP | 音频、视频 | — | — | — | — |
所有模型
Qwen3.5-Omni
Qwen3.5-Omni
| 模型 | API | 输入 | Function calling | 联网搜索 | 思考模式 | 批量 |
|---|---|---|---|---|---|---|
qwen3.5-omni-plus-realtime | WebSocket | 文本、音频、图像、视频 | — | ✓ | — | — |
qwen3.5-omni-plus-realtime-2026-03-15 | WebSocket | 文本、音频、图像、视频 | — | ✓ | — | — |
qwen3.5-omni-flash-realtime | WebSocket | 文本、音频、图像、视频 | — | ✓ | — | — |
qwen3.5-omni-flash-realtime-2026-03-15 | WebSocket | 文本、音频、图像、视频 | — | ✓ | — | — |
qwen3.5-omni-plus | HTTP | 文本、音频、图像、视频 | ✓ | ✓ | — | — |
qwen3.5-omni-plus-2026-03-15 | HTTP | 文本、音频、图像、视频 | ✓ | ✓ | — | — |
qwen3.5-omni-flash | HTTP | 文本、音频、图像、视频 | ✓ | ✓ | — | — |
qwen3.5-omni-flash-2026-03-15 | HTTP | 文本、音频、图像、视频 | ✓ | ✓ | — | — |
Qwen3-Omni-Flash
Qwen3-Omni-Flash
| 模型 | API | 输入 | Function calling | 联网搜索 | 思考模式 | 批量 |
|---|---|---|---|---|---|---|
qwen3-omni-flash-realtime | WebSocket | 文本、音频、图像、视频 | — | — | — | — |
qwen3-omni-flash-realtime-2025-12-01 | WebSocket | 文本、音频、图像、视频 | — | — | — | — |
qwen3-omni-flash-realtime-2025-09-15 | WebSocket | 文本、音频、图像、视频 | — | — | — | — |
qwen3-omni-flash | HTTP | 文本、音频、图像、视频 | ✓ | — | ✓ | — |
qwen3-omni-flash-2025-12-01 | HTTP | 文本、音频、图像、视频 | ✓ | — | ✓ | — |
qwen3-omni-flash-2025-09-15 | HTTP | 文本、音频、图像、视频 | ✓ | — | ✓ | — |
Qwen3.5-Livetranslate
Qwen3.5-Livetranslate
| 模型 | API | 输入 | 语言数 |
|---|---|---|---|
qwen3.5-livetranslate-flash-realtime | WebSocket | 音频 | 60 |
qwen3.5-livetranslate-flash-realtime-2026-05-19 | WebSocket | 音频 | 60 |
qwen3-livetranslate-flash-realtime(旧版) | WebSocket | 音频 | 18 |
qwen3-livetranslate-flash-realtime-2025-09-22 | WebSocket | 音频 | 18 |
qwen3-livetranslate-flash | HTTP | 音频、视频 | 18 |
qwen3-livetranslate-flash-2025-12-01 | HTTP | 音频、视频 | 18 |
旧版模型
旧版模型
以下模型不再更新。新项目请使用 Qwen3.5-Omni 或 Qwen3-Omni-Flash。
| 模型 | 输入 | API |
|---|---|---|
qwen2.5-omni-7b | 文本、音频、图像、视频 | HTTP |
qwen-omni-turbo | 文本、音频、图像、视频 | HTTP |
qwen-omni-turbo-latest | 文本、音频、图像、视频 | HTTP |
qwen-omni-turbo-2025-03-26 | 文本、音频、图像、视频 | HTTP |
qwen-omni-turbo-2025-01-19 | 文本、音频、图像、视频 | HTTP |
qwen-omni-turbo-realtime | 文本、音频 | WebSocket |
qwen-omni-turbo-realtime-latest | 文本、音频 | WebSocket |
qwen-omni-turbo-realtime-2025-05-08 | 文本、音频 | WebSocket |

