使用 Qwen3-TTS、CosyVoice 和 MiniMax 进行非实时语音合成
非实时语音合成通过 HTTP API 将文本转换为语音,适用于有声读物、课件配音、内容生产等对延迟不敏感的场景。支持 Qwen-TTS、CosyVoice 和 MiniMax 多种模型系列,提供丰富音色、多语言支持、声音复刻与声音设计等能力。
调用以下模型时需使用 API key:
通过自然语言指令控制音高、语速、情感和音色,无需调整音频参数。
支持的模型:仅 Qwen3-TTS-Instruct-Flash 系列。
使用方式:在
示例
Qwen3-TTS 支持声音克隆(Qwen3-TTS-VC)和声音设计(Qwen3-TTS-VD)。API 参考请参见声音克隆 (Qwen) 和声音设计 (Qwen)。
不同模型支持的音色有所不同。将
Q:音频文件 URL 的有效期是多久?
音频文件 URL 在 24 小时后过期。
支持的模型
调用以下模型时需使用 API key:
- Qwen3-TTS-Instruct-Flash
- Qwen3-TTS-VD
- Qwen3-TTS-VC
- Qwen3-TTS-Flash
- cosyvoice-v3-plus
- cosyvoice-v3-flash
- MiniMax(MiniMax-Speech-02-HD)
CosyVoice 使用 DashScope WebSocket SDK(
dashscope.audio.tts_v2 中的 SpeechSynthesizer),而非 Qwen3-TTS 所用的 HTTP REST API。如需使用 CosyVoice 进行实时流式合成,请参见实时语音合成。快速开始
- Qwen3-TTS
- CosyVoice
前提条件流式输出以 Base64 格式流式输出音频数据。最后一个数据包包含完整音频文件的 URL。
- 获取 API key 并将其设置为环境变量。
- 如需使用 SDK,请先安装 SDK。Java SDK 需要 2.21.9+ 版本,Python SDK 需要 1.24.6+ 版本。
在 DashScope Python SDK 中,
SpeechSynthesizer 接口已替换为 MultiModalConversation。升级时只需替换接口名称,其他参数完全兼容。使用系统音色
使用系统音色进行语音合成。非流式输出通过返回的url 获取合成后的音频文件,该 URL 有效期为 24 小时。Java 需要导入 Gson 依赖。如果使用 Maven 或 Gradle,按如下方式添加依赖:- Maven
- Gradle
在
pom.xml 中添加以下内容:使用克隆音色
声音克隆不提供预览音频。将克隆音色应用于语音合成后才能评估效果。以下示例基于非流式输出代码,将voice 参数替换为克隆音色。- 关键原则:声音克隆所用的模型(
target_model)必须与语音合成所用的模型(model)一致,否则合成将失败。 - 本示例使用本地音频文件
voice.mp3进行声音克隆,运行代码时请替换该路径。
- Maven
- Gradle
在
pom.xml 中添加以下内容:使用声音克隆生成的自定义音色进行语音合成时,请按如下方式设置 voice 参数:
使用设计音色
声音设计会返回预览音频。请先试听预览确认效果满意后再用于合成,以降低成本。1
生成自定义音色并预览效果
如果对效果满意,请继续下一步;否则,请重新生成。Java 需要导入 Gson 依赖。如果使用 Maven 或 Gradle,按如下方式添加依赖:
- Maven
- Gradle
在
pom.xml 中添加以下内容:使用声音设计生成的自定义音色进行语音合成时,必须按如下方式设置 voice 参数:
2
使用自定义音色进行语音合成
使用上一步生成的自定义音色进行非流式语音合成。本示例基于非流式输出代码,将
voice 参数替换为声音设计生成的自定义音色。如需流式合成,请参见快速开始。关键原则:声音设计所用的模型(target_model)必须与后续语音合成所用的模型(model)一致,否则合成将失败。指令控制
通过自然语言指令控制音高、语速、情感和音色,无需调整音频参数。
支持的模型:仅 Qwen3-TTS-Instruct-Flash 系列。
使用方式:在 instructions 参数中指定指令。示例:"语速快,语调上扬明显,适合时尚产品介绍。"
支持的语言:仅中文和英文。
长度限制:最多 1600 个 Token。
适用场景:
- 有声书和广播剧配音
- 广告和宣传视频配音
- 游戏角色和动画配音
- 情感智能语音助手
- 纪录片和新闻播报
- 具体明确:使用"低沉"、"清脆"、"快节奏"等描述性词汇,避免使用"好听"、"正常"等模糊词汇。
- 多维描述:结合音高、语速、情感等多个维度,避免仅使用"高音"等单一维度描述。
- 客观描述:聚焦物理和感知特征,而非个人喜好。使用"高亢有力"而非"我最喜欢的声音"。
- 原创描述:描述声音特质,不要要求模仿特定人物。模型不支持直接模仿。
- 简洁精炼:确保每个词都有意义,避免重复的近义词或无意义的修饰词。
| 维度 | 示例 |
|---|---|
| 音高 | 高、中、低、高亢、低沉 |
| 语速 | 快、中、慢、快节奏、慢节奏 |
| 情感 | 欢快、平静、温柔、严肃、活泼、沉稳、舒缓 |
| 特征 | 磁性、清脆、沙哑、醇厚、甜美、深沉、有力 |
| 用途 | 新闻播报、广告配音、有声书、动画角色、语音助手、纪录片旁白 |
- 标准播报风格:吐字清晰准确,字正腔圆。
- 渐进情绪效果:音量从正常对话迅速提升到大喊,性格直爽、容易激动,情绪表达丰富。
- 特殊情绪状态:抽泣的语气导致发音略微含糊沙哑,哭腔中带有明显的紧张感。
- 广告配音风格:音调高、语速适中、充满活力和感染力,适合广告配音。
- 温柔舒缓风格:语速缓慢,音调温柔甜美,语气舒缓温暖,如同关心你的朋友。
自定义音色
Qwen3-TTS 支持声音克隆(Qwen3-TTS-VC)和声音设计(Qwen3-TTS-VD)。API 参考请参见声音克隆 (Qwen) 和声音设计 (Qwen)。
API 参考
- 语音合成 - Qwen API 参考
- CosyVoice - Python SDK
- CosyVoice - Java SDK
- CosyVoice - WebSocket API
- 声音克隆 API 参考
- 声音设计 API 参考
系统音色
不同模型支持的音色有所不同。将 voice 请求参数设置为音色列表中 voice 参数列的值。
| voice 参数 | 说明 | 支持的语言 | 支持的模型 |
|---|---|---|---|
| Cherry | 音色名:Cherry。阳光积极、友善自然的年轻女性(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash, Qwen-TTS |
| Serena | 音色名:Serena。温柔的年轻女性(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash, Qwen-TTS |
| Ethan | 音色名:Ethan。标准普通话略带北方口音,阳光温暖、活力四射(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash, Qwen-TTS |
| Chelsie | 音色名:Chelsie。二次元虚拟女友(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash, Qwen-TTS |
| Momo | 音色名:Momo。俏皮可爱,给你带来好心情(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Vivian | 音色名:Vivian。自信可爱、略带泼辣(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Moon | 音色名:Moon。一个名叫月白的潇洒帅气男子(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Maia | 音色名:Maia。智慧与温柔兼备(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Kai | 音色名:Kai。治愈耳朵的声音 SPA(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Nofish | 音色名:Nofish。一个不会发翘舌音的设计师(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Bella | 音色名:Bella。一个喝酒不打人的小姑娘(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Jennifer | 音色名:Jennifer。高品质影视级美式英语女声(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Ryan | 音色名:Ryan。充满节奏感,戏剧张力十足,真实与紧张的平衡(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Katerina | 音色名:Katerina。成熟女性嗓音,节奏丰富令人难忘(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Aiden | 音色名:Aiden。一个擅长烹饪的美式英语年轻男性(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Eldric Sage | 音色名:Eldric Sage。沉稳睿智的长者(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Mia | 音色名:Mia。温柔如春水、乖巧如初雪(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Mochi | 音色名:Mochi。聪明机智的年轻人(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Bellona | 音色名:Bellona。有力清晰的声音,让角色栩栩如生 | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Vincent | 音色名:Vincent。独特的沙哑烟嗓(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Bunny | 音色名:Bunny。一个"萌"力溢出的小女孩(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Neil | 音色名:Neil。平稳的基线语调,发音精准清晰(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Elias | 音色名:Elias。在保持学术严谨的同时运用叙事技巧(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Arthur | 音色名:Arthur。质朴的嗓音,沉淀了岁月(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Nini | 音色名:Nini。声音软糯,如同甜甜的年糕(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Ebona | 音色名:Ebona。如同生锈的钥匙在最暗角落缓缓转动的低语(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Seren | 音色名:Seren。轻柔舒缓,帮你更快入睡(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Pip | 音色名:Pip。活泼调皮、充满童真的小男孩(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Stella | 音色名:Stella。嗲嗲的、迷迷糊糊的少女音(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Instruct-Flash, Qwen3-TTS-Flash |
| Bodega | 音色名:Bodega。热情的西班牙男性(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Sonrisa | 音色名:Sonrisa。开朗外向的拉美女性(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Alek | 音色名:Alek。冷如俄罗斯精神,暖如羊毛大衣的内衬(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Dolce | 音色名:Dolce。悠闲的意大利男性(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Sohee | 音色名:Sohee。温暖开朗、情感丰富的韩国欧尼(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Ono Anna | 音色名:Ono Anna。聪明伶俐的青梅竹马(女) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Lenn | 音色名:Lenn。骨子里理性,细节里叛逆 | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Emilien | 音色名:Emilien。浪漫的法国大哥哥(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Andre | 音色名:Andre。磁性自然、沉稳的男声(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Radio Gol | 音色名:Radio Gol。足球诗人(男) | 中文(普通话)、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Jada | 音色名:上海 - Jada。语速快、精力充沛的上海阿姨(女) | 上海话、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash, Qwen-TTS |
| Dylan | 音色名:北京 - Dylan。在北京胡同长大的年轻男性(男) | 北京方言、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash, Qwen-TTS |
| Li | 音色名:南京 - Li。耐心的瑜伽老师(男) | 南京方言、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Marcus | 音色名:陕西 - Marcus。地道的陕西味道(男) | 陕西方言、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Roy | 音色名:闽南 - Roy。幽默直爽、活泼的台湾小哥(男) | 闽南语、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Peter | 音色名:天津 - Peter。天津味相声,专业捧哏(男) | 天津方言、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Sunny | 音色名:四川 - Sunny。甜到心坎的四川妹子(女) | 四川方言、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash, Qwen-TTS |
| Eric | 音色名:四川 - Eric。来自成都的四川男生(男) | 四川方言、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Rocky | 音色名:粤语 - Rocky。幽默风趣的直播达人(男) | 粤语、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
| Kiki | 音色名:粤语 - Kiki。甜美的港风闺蜜(女) | 粤语、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 | Qwen3-TTS-Flash |
常见问题
Q:音频文件 URL 的有效期是多久?
音频文件 URL 在 24 小时后过期。
了解更多
- 实时语音合成(CosyVoice 和 Qwen-TTS-Realtime) — 使用 WebSocket 进行实时流式语音合成
- 音色列表

