使用 Qwen3-TTS、CosyVoice 和 MiniMax 进行非实时语音合成
非实时语音合成通过 HTTP API 将文本转换为语音,适用于有声读物、课件配音、内容生产等对延迟不敏感的场景。支持 Qwen-TTS、CosyVoice 和 MiniMax 多种模型系列,提供丰富音色、多语言支持、声音复刻与声音设计等能力。
调用以下模型时需使用 API key:
通过自然语言指令控制音高、语速、情感和音色,无需调整音频参数。
支持的模型:仅 Qwen3-TTS-Instruct-Flash 系列。
使用方式:在
示例
Qwen3-TTS 支持声音克隆(Qwen3-TTS-VC)和声音设计(Qwen3-TTS-VD)。API 参考请参见声音克隆 (Qwen) 和声音设计 (Qwen)。
支持的音色清单、模型兼容性与试听见 Qwen-TTS 音色列表。
Q:音频文件 URL 的有效期是多久?
音频文件 URL 在 24 小时后过期。
支持的模型
调用以下模型时需使用 API key:
- Qwen3-TTS-Instruct-Flash
- Qwen3-TTS-VD
- Qwen3-TTS-VC
- Qwen3-TTS-Flash
- cosyvoice-v3-plus
- cosyvoice-v3-flash
- MiniMax(MiniMax-Speech-02-HD)
CosyVoice 使用 DashScope WebSocket SDK(
dashscope.audio.tts_v2 中的 SpeechSynthesizer),而非 Qwen3-TTS 所用的 HTTP REST API。如需使用 CosyVoice 进行实时流式合成,请参见实时语音合成。快速开始
- Qwen3-TTS
- CosyVoice
前提条件流式输出以 Base64 格式流式输出音频数据。最后一个数据包包含完整音频文件的 URL。
- 获取 API key 并将其设置为环境变量。
- 如需使用 SDK,请先安装 SDK。Java SDK 需要 2.21.9+ 版本,Python SDK 需要 1.24.6+ 版本。
在 DashScope Python SDK 中,
SpeechSynthesizer 接口已替换为 MultiModalConversation。升级时只需替换接口名称,其他参数完全兼容。使用系统音色
使用系统音色进行语音合成。非流式输出通过返回的url 获取合成后的音频文件,该 URL 有效期为 24 小时。Java 需要导入 Gson 依赖。如果使用 Maven 或 Gradle,按如下方式添加依赖:- Maven
- Gradle
在
pom.xml 中添加以下内容:使用克隆音色
声音克隆不提供预览音频。将克隆音色应用于语音合成后才能评估效果。以下示例基于非流式输出代码,将voice 参数替换为克隆音色。- 关键原则:声音克隆所用的模型(
target_model)必须与语音合成所用的模型(model)一致,否则合成将失败。 - 本示例使用本地音频文件
voice.mp3进行声音克隆,运行代码时请替换该路径。
- Maven
- Gradle
在
pom.xml 中添加以下内容:使用声音克隆生成的自定义音色进行语音合成时,请按如下方式设置 voice 参数:
使用设计音色
声音设计会返回预览音频。请先试听预览确认效果满意后再用于合成,以降低成本。1
生成自定义音色并预览效果
如果对效果满意,请继续下一步;否则,请重新生成。Java 需要导入 Gson 依赖。如果使用 Maven 或 Gradle,按如下方式添加依赖:
- Maven
- Gradle
在
pom.xml 中添加以下内容:使用声音设计生成的自定义音色进行语音合成时,必须按如下方式设置 voice 参数:
2
使用自定义音色进行语音合成
使用上一步生成的自定义音色进行非流式语音合成。本示例基于非流式输出代码,将
voice 参数替换为声音设计生成的自定义音色。如需流式合成,请参见快速开始。关键原则:声音设计所用的模型(target_model)必须与后续语音合成所用的模型(model)一致,否则合成将失败。指令控制
通过自然语言指令控制音高、语速、情感和音色,无需调整音频参数。
支持的模型:仅 Qwen3-TTS-Instruct-Flash 系列。
使用方式:在 instructions 参数中指定指令。示例:"语速快,语调上扬明显,适合时尚产品介绍。"
支持的语言:仅中文和英文。
长度限制:最多 1600 个 Token。
适用场景:
- 有声书和广播剧配音
- 广告和宣传视频配音
- 游戏角色和动画配音
- 情感智能语音助手
- 纪录片和新闻播报
- 具体明确:使用"低沉"、"清脆"、"快节奏"等描述性词汇,避免使用"好听"、"正常"等模糊词汇。
- 多维描述:结合音高、语速、情感等多个维度,避免仅使用"高音"等单一维度描述。
- 客观描述:聚焦物理和感知特征,而非个人喜好。使用"高亢有力"而非"我最喜欢的声音"。
- 原创描述:描述声音特质,不要要求模仿特定人物。模型不支持直接模仿。
- 简洁精炼:确保每个词都有意义,避免重复的近义词或无意义的修饰词。
| 维度 | 示例 |
|---|---|
| 音高 | 高、中、低、高亢、低沉 |
| 语速 | 快、中、慢、快节奏、慢节奏 |
| 情感 | 欢快、平静、温柔、严肃、活泼、沉稳、舒缓 |
| 特征 | 磁性、清脆、沙哑、醇厚、甜美、深沉、有力 |
| 用途 | 新闻播报、广告配音、有声书、动画角色、语音助手、纪录片旁白 |
- 标准播报风格:吐字清晰准确,字正腔圆。
- 渐进情绪效果:音量从正常对话迅速提升到大喊,性格直爽、容易激动,情绪表达丰富。
- 特殊情绪状态:抽泣的语气导致发音略微含糊沙哑,哭腔中带有明显的紧张感。
- 广告配音风格:音调高、语速适中、充满活力和感染力,适合广告配音。
- 温柔舒缓风格:语速缓慢,音调温柔甜美,语气舒缓温暖,如同关心你的朋友。
自定义音色
Qwen3-TTS 支持声音克隆(Qwen3-TTS-VC)和声音设计(Qwen3-TTS-VD)。API 参考请参见声音克隆 (Qwen) 和声音设计 (Qwen)。
API 参考
- 语音合成 - Qwen API 参考
- CosyVoice - Python SDK
- CosyVoice - Java SDK
- CosyVoice - WebSocket API
- 声音克隆 API 参考
- 声音设计 API 参考
系统音色
支持的音色清单、模型兼容性与试听见 Qwen-TTS 音色列表。
常见问题
Q:音频文件 URL 的有效期是多久?
音频文件 URL 在 24 小时后过期。
了解更多
- 实时语音合成(CosyVoice 和 Qwen-TTS-Realtime) — 使用 WebSocket 进行实时流式语音合成
- CosyVoice 音色列表
- Qwen-TTS 音色列表