选择适合语音合成、声音克隆和声音设计的模型。
选择模型前,先确定两个问题:是否需要自定义音色(还是内置音色即可),以及是否需要实时流式输出。
从音色库中选择一个音色,即可开始合成语音。
音色库中没有满意的音色?
三种方式,按灵活性由高到低排列:
内置音色还是自定义音色?
内置音色
从音色库中选择一个音色,即可开始合成语音。
- CosyVoice — 音色库丰富,合成质量高,选定音色即可使用
- Qwen3-TTS — 低延迟流式输出;使用
-instruct变体可通过自然语言控制语速、情感和风格
自定义音色
音色库中没有满意的音色?
- 声音克隆(Voice Cloning) — 基于音频样本复现特定人物的声音。适用于需要匹配目标音色的场景。
- 声音设计(Voice Design) — 通过文字描述生成全新音色(例如"温暖低沉的女声")。适用于无音频样本但需要品牌专属音色的场景。
控制语音效果
三种方式,按灵活性由高到低排列:
-
指令控制(
qwen3-tts-instruct-flash、qwen3-tts-instruct-flash-realtime)— 用自然语言描述期望的朗读效果,可逐次调整语速、情感和风格。灵活性最高。 -
声音设计(
qwen3-tts-vd-*)— 通过文字描述生成自定义音色。适合在没有音频样本的情况下打造品牌音色。 -
声音克隆(
qwen3-tts-vc-*)— 基于音频样本复现已有声音。适合需要匹配特定人物音色的场景。
推荐模型
| 模型 | 系列 | 流式输出 | 自定义音色 | 指令控制 |
|---|---|---|---|---|
cosyvoice-v3-plus | CosyVoice | ✓ | — | — |
qwen3-tts-flash | Qwen3-TTS | ✓ | — | — |
qwen3-tts-flash-realtime | Qwen3-TTS | ✓ | — | — |
qwen3-tts-instruct-flash | Qwen3-TTS | ✓ | — | ✓ |
qwen3-tts-vc-realtime-2026-01-15 | Voice Cloning | ✓ | ✓ | — |
qwen3-tts-vd-realtime-2026-01-15 | Voice Design | ✓ | ✓ | — |
全部模型
CosyVoice
CosyVoice
| 模型 | 流式输出 | 自定义音色 | 指令控制 |
|---|---|---|---|
cosyvoice-v3.5-plus | ✓ | — | — |
cosyvoice-v3.5-flash | ✓ | — | — |
cosyvoice-v3-plus | ✓ | — | — |
cosyvoice-v3-flash | ✓ | — | — |
Qwen3-TTS
Qwen3-TTS
| 模型 | 流式输出 | 自定义音色 | 指令控制 |
|---|---|---|---|
qwen3-tts-flash | ✓ | — | — |
qwen3-tts-flash-realtime | ✓ | — | — |
qwen3-tts-instruct-flash | ✓ | — | ✓ |
qwen3-tts-instruct-flash-realtime | ✓ | — | ✓ |
声音克隆与设计
声音克隆与设计
| 模型 | 流式输出 | 自定义音色 | 指令控制 |
|---|---|---|---|
qwen3-tts-vc-2026-01-22 | ✗ | ✓ | — |
qwen3-tts-vc-realtime-2026-01-15 | ✓ | ✓ | — |
qwen3-tts-vd-2026-01-26 | ✗ | ✓ | — |
qwen3-tts-vd-realtime-2026-01-15 | ✓ | ✓ | — |
qwen-voice-enrollment | ✗ | ✓ | — |
qwen-voice-design | ✗ | ✓ | — |
旧版模型
旧版模型
上一代模型。新项目建议使用上述最新版本。
| 模型 | 系列 | 流式输出 | 自定义音色 | 指令控制 |
|---|---|---|---|---|
qwen3-tts-flash-2025-11-27 | Qwen3-TTS | ✓ | — | — |
qwen3-tts-flash-2025-09-18 | Qwen3-TTS | ✓ | — | — |
qwen3-tts-flash-realtime-2025-11-27 | Qwen3-TTS | ✓ | — | — |
qwen3-tts-flash-realtime-2025-09-18 | Qwen3-TTS | ✓ | — | — |
qwen3-tts-instruct-flash-2026-01-26 | Qwen3-TTS | ✓ | — | ✓ |
qwen3-tts-instruct-flash-realtime-2026-01-22 | Qwen3-TTS | ✓ | — | ✓ |
qwen3-tts-vc-realtime-2025-11-27 | Voice Cloning | ✓ | ✓ | — |
qwen3-tts-vd-realtime-2025-12-16 | Voice Design | ✓ | ✓ | — |
qwen-tts | Qwen-TTS | ✓ | — | — |
qwen-tts-latest | Qwen-TTS | ✓ | — | — |
qwen-tts-2025-05-22 | Qwen-TTS | ✓ | — | — |
qwen-tts-2025-04-10 | Qwen-TTS | ✓ | — | — |
qwen-tts-realtime | Qwen-TTS-Realtime | ✓ | — | — |
qwen-tts-realtime-latest | Qwen-TTS-Realtime | ✓ | — | — |
qwen-tts-realtime-2025-07-15 | Qwen-TTS-Realtime | ✓ | — | — |
cosyvoice-v2 | CosyVoice | ✓ | — | — |
cosyvoice-v1 | CosyVoice | ✓ | — | — |

