跳转到主要内容
语音合成

语音合成模型

选择适合语音合成、声音克隆和声音设计的模型。

选择模型前,先确定两个问题:是否需要自定义音色(还是内置音色即可),以及是否需要实时流式输出。

内置音色还是自定义音色?

内置音色

从音色库中选择一个音色,即可开始合成语音。
  • CosyVoice — 音色库丰富,合成质量高,选定音色即可使用
  • Qwen3-TTS — 低延迟流式输出;使用 -instruct 变体可通过自然语言控制语速、情感和风格

自定义音色

音色库中没有满意的音色?
  • 声音克隆(Voice Cloning) — 基于音频样本复现特定人物的声音。适用于需要匹配目标音色的场景。
  • 声音设计(Voice Design) — 通过文字描述生成全新音色(例如"温暖低沉的女声")。适用于无音频样本但需要品牌专属音色的场景。

控制语音效果

三种方式,按灵活性由高到低排列:
  1. 指令控制qwen3-tts-instruct-flashqwen3-tts-instruct-flash-realtime)— 用自然语言描述期望的朗读效果,可逐次调整语速、情感和风格。灵活性最高。
  2. 声音设计qwen3-tts-vd-*)— 通过文字描述生成自定义音色。适合在没有音频样本的情况下打造品牌音色。
  3. 声音克隆qwen3-tts-vc-*)— 基于音频样本复现已有声音。适合需要匹配特定人物音色的场景。

推荐模型

模型系列流式输出自定义音色指令控制
cosyvoice-v3-plusCosyVoice
qwen3-tts-flashQwen3-TTS
qwen3-tts-flash-realtimeQwen3-TTS
qwen3-tts-instruct-flashQwen3-TTS
qwen3-tts-vc-realtime-2026-01-15Voice Cloning
qwen3-tts-vd-realtime-2026-01-15Voice Design

全部模型

模型流式输出自定义音色指令控制
cosyvoice-v3.5-plus
cosyvoice-v3.5-flash
cosyvoice-v3-plus
cosyvoice-v3-flash
模型流式输出自定义音色指令控制
qwen3-tts-flash
qwen3-tts-flash-realtime
qwen3-tts-instruct-flash
qwen3-tts-instruct-flash-realtime
模型流式输出自定义音色指令控制
qwen3-tts-vc-2026-01-22
qwen3-tts-vc-realtime-2026-01-15
qwen3-tts-vd-2026-01-26
qwen3-tts-vd-realtime-2026-01-15
qwen-voice-enrollment
qwen-voice-design
上一代模型。新项目建议使用上述最新版本。
模型系列流式输出自定义音色指令控制
qwen3-tts-flash-2025-11-27Qwen3-TTS
qwen3-tts-flash-2025-09-18Qwen3-TTS
qwen3-tts-flash-realtime-2025-11-27Qwen3-TTS
qwen3-tts-flash-realtime-2025-09-18Qwen3-TTS
qwen3-tts-instruct-flash-2026-01-26Qwen3-TTS
qwen3-tts-instruct-flash-realtime-2026-01-22Qwen3-TTS
qwen3-tts-vc-realtime-2025-11-27Voice Cloning
qwen3-tts-vd-realtime-2025-12-16Voice Design
qwen-ttsQwen-TTS
qwen-tts-latestQwen-TTS
qwen-tts-2025-05-22Qwen-TTS
qwen-tts-2025-04-10Qwen-TTS
qwen-tts-realtimeQwen-TTS-Realtime
qwen-tts-realtime-latestQwen-TTS-Realtime
qwen-tts-realtime-2025-07-15Qwen-TTS-Realtime
cosyvoice-v2CosyVoice
cosyvoice-v1CosyVoice

了解更多