跳转到主要内容
语音对话

语音到语音模型

选择适合语音对话、语音翻译等场景的模型。

S2S 与 Pipeline 对比

构建语音应用有两种方式:
S2SPipeline(ASR + LLM + TTS)
延迟低 — 单模型,流式输出较高 — 需经过 3 个串行环节
音频理解端到端 — 能感知语气、情感并做出相应回应先转文字再处理 — 音频细节丢失
语音定制通过 system prompt 选择预设音色支持声音克隆、声音设计(CosyVoice)
  • 选择 S2S:适用于交互式对话、低延迟、需要感知音频情绪的场景。请继续阅读本页。
  • 选择 Pipeline:适用于需要自定义音色,或希望为每个环节分别选择最佳 ASRLLMTTS 的场景。

实时还是文件?

  • 实时(WebSocket)— 适用于实时语音交互场景:语音助手、呼叫中心、同声传译。音频流式输入,语音流式输出。模型名称包含 -realtime
  • 文件(HTTP)— 适用于可以牺牲延迟换取更好效果的场景:视频配音、播客翻译、离线内容处理。支持 function calling(Qwen3.5-Omni、Qwen3-Omni-Flash)、联网搜索(Qwen3.5-Omni)、思考模式(Qwen3-Omni-Flash)和视频上下文(Livetranslate)。

Function calling

让模型根据所听到和看到的内容执行操作 — 查询知识库、查看日程、触发工作流。使用 qwen3.5-omni-plus(HTTP)、qwen3.5-omni-flash(HTTP)或 qwen3-omni-flash(HTTP)。实时模式和 Livetranslate 模型不支持此功能。

联网搜索

让模型检索实时信息,回答关于时事、股价、天气等问题。使用 qwen3.5-omni-plus(HTTP)或 qwen3.5-omni-plus-realtime(WebSocket)。模型会自主判断是否需要搜索。Qwen3-Omni-Flash 和 Livetranslate 模型不支持此功能。

思考模式

使用 qwen3-omni-flash(HTTP),适用于回答质量比延迟更重要的场景。模型会先逐步推理再生成语音 — 适合技术支持、复杂问答或多步骤指引。Qwen3.5-Omni 模型不支持此功能。

翻译

三个模型系列都支持语音翻译:
  • Qwen3.5-Livetranslate — 支持 60 种语言互译(29 种音频+文本输出、31 种仅文本输出),约 3 秒延迟,开箱即用。文件模式支持视频输入以提升翻译准确性。
  • Qwen3.5-Omni — 支持 29 种输出语言 + 7 种中文方言。音视频理解能力更强,支持联网搜索。可通过 system prompt 注入术语和领域上下文。支持实时和文件两种模式。
  • Qwen3-Omni-Flash — 支持 11 种输出语言 + 8 种中文方言。可通过 system prompt 注入术语和领域上下文,适用于专业领域翻译。支持实时和文件两种模式。成本更低。
快速上手选 Qwen3.5-Livetranslate(60 种语言,约 3 秒延迟);追求最佳质量和最广语言覆盖选 Qwen3.5-Omni;控制成本选 Qwen3-Omni-Flash。
语言Qwen3.5-LivetranslateQwen3-LivetranslateQwen3.5-OmniQwen3-Omni-Flash
英语
中文(普通话)
  + 粤语仅文本
  + 四川话
  + 上海话
  + 北京话
  + 天津话
  + 南京话
  + 陕西话
  + 闽南语
法语
德语
俄语
意大利语
西班牙语
葡萄牙语
日语
韩语
阿拉伯语仅文本
泰语仅文本
越南语仅文本
印尼语仅文本
土耳其语仅文本
印地语仅文本
马来语
荷兰语
乌尔都语
挪威语
瑞典语
丹麦语
希伯来语
芬兰语
波兰语
冰岛语
捷克语
菲律宾语
波斯语
希腊语仅文本仅文本
✓ = 音频 + 文本输出。"仅文本" = 该语言不支持音频输出。Qwen3.5-Livetranslate 共支持 60 种语言(29 种音频+文本,31 种仅文本)。Qwen3.5-Omni 共支持 113 种输入语言/方言。详见完整列表旧版 qwen-omni-turbo 仅支持中文和英语。

推荐模型

模型API输入Function calling联网搜索思考模式批量
qwen3.5-omni-plus-realtimeWebSocket文本、音频、图像、视频
qwen3.5-omni-plusHTTP文本、音频、图像、视频
qwen3.5-omni-flash-realtimeWebSocket文本、音频、图像、视频
qwen3.5-omni-flashHTTP文本、音频、图像、视频
qwen3-omni-flash-realtimeWebSocket文本、音频、图像、视频
qwen3-omni-flashHTTP文本、音频、图像、视频
qwen3.5-livetranslate-flash-realtimeWebSocket音频
qwen3.5-livetranslate-flashHTTP音频、视频

所有模型

模型API输入Function calling联网搜索思考模式批量
qwen3.5-omni-plus-realtimeWebSocket文本、音频、图像、视频
qwen3.5-omni-plus-realtime-2026-03-15WebSocket文本、音频、图像、视频
qwen3.5-omni-flash-realtimeWebSocket文本、音频、图像、视频
qwen3.5-omni-flash-realtime-2026-03-15WebSocket文本、音频、图像、视频
qwen3.5-omni-plusHTTP文本、音频、图像、视频
qwen3.5-omni-plus-2026-03-15HTTP文本、音频、图像、视频
qwen3.5-omni-flashHTTP文本、音频、图像、视频
qwen3.5-omni-flash-2026-03-15HTTP文本、音频、图像、视频
模型API输入Function calling联网搜索思考模式批量
qwen3-omni-flash-realtimeWebSocket文本、音频、图像、视频
qwen3-omni-flash-realtime-2025-12-01WebSocket文本、音频、图像、视频
qwen3-omni-flash-realtime-2025-09-15WebSocket文本、音频、图像、视频
qwen3-omni-flashHTTP文本、音频、图像、视频
qwen3-omni-flash-2025-12-01HTTP文本、音频、图像、视频
qwen3-omni-flash-2025-09-15HTTP文本、音频、图像、视频
模型API输入语言数
qwen3.5-livetranslate-flash-realtimeWebSocket音频60
qwen3.5-livetranslate-flash-realtime-2026-05-19WebSocket音频60
qwen3-livetranslate-flash-realtime(旧版)WebSocket音频18
qwen3-livetranslate-flash-realtime-2025-09-22WebSocket音频18
qwen3-livetranslate-flashHTTP音频、视频18
qwen3-livetranslate-flash-2025-12-01HTTP音频、视频18
以下模型不再更新。新项目请使用 Qwen3.5-Omni 或 Qwen3-Omni-Flash。
模型输入API
qwen2.5-omni-7b文本、音频、图像、视频HTTP
qwen-omni-turbo文本、音频、图像、视频HTTP
qwen-omni-turbo-latest文本、音频、图像、视频HTTP
qwen-omni-turbo-2025-03-26文本、音频、图像、视频HTTP
qwen-omni-turbo-2025-01-19文本、音频、图像、视频HTTP
qwen-omni-turbo-realtime文本、音频WebSocket
qwen-omni-turbo-realtime-latest文本、音频WebSocket
qwen-omni-turbo-realtime-2025-05-08文本、音频WebSocket

了解更多