声音复刻(Voice Cloning)只需提供一段 10~20 秒的音频样本,即可生成高度相似的定制音色,无需模型训练。
声音复刻适用于个性化语音助手、品牌专属播报、有声内容定制化等场景。
千问云平台提供以下模型系列的声音复刻能力:
声音复刻的使用分为以下三步:
示例使用本地音频文件
适用于 Qwen3-TTS-VC-Realtime 模型。参数详情见实时流式语音合成。
适用于 Qwen3-TTS-VC 模型。详见 Qwen TTS。
CosyVoice 声音复刻通过专用的声音复刻 API 进行操作,同样遵循"创建音色 - 使用音色合成"的流程。
步骤一:创建音色
调用声音复刻 API 上传音频并创建音色。
步骤二:使用复刻音色合成语音
将上一步返回的
提交复刻请求后,系统会生成一段试听音频(按同步语音合成单价计费)。首次使用复刻音色进行语音合成时,需支付 9.9 元音色解锁费用。
步骤一:创建音色
调用音色复刻 API 上传音频并创建音色。
步骤二:使用复刻音色合成语音
将上一步指定的
输入音频的质量直接决定复刻效果。不同模型系列对音频的具体要求有所差异,请按照目标模型的要求准备音频样本。
各模型支持的语言:
高质量的输入音频是获得优质复刻效果的基础。以下从录音设备、录音环境、录音文案和操作流程四个方面提供建议。
可使用手机、数字录音笔、专业录音机等。建议使用支持高采样率(24 kHz 及以上)录音的设备,以满足音频要求。
场地
以普通卧室为例:
音色创建完成后,您可以通过 API 对已有音色进行查询和管理(Qwen-TTS 和 CosyVoice 支持)。
MiniMax 仅支持创建音色,不支持查询和删除等音色管理操作。
支持的模型:
不可以。音色在创建时通过
Qwen-TTS 和 CosyVoice 创建的音色默认长期有效,但长时间未使用的音色可能会被系统清理。建议妥善保存音色 ID,需要时可通过查询接口确认音色是否仍然可用。
会的。输入音频的质量直接影响复刻效果。背景噪音、混响、多人声等问题都会降低复刻音色的相似度和自然度。建议参照音频要求和录音建议准备样本。
声音复刻 API
概述
千问云平台提供以下模型系列的声音复刻能力:
- CosyVoice:通过 DashScope SDK 或 HTTP API 创建音色,支持实时与非实时语音合成。
- MiniMax:通过 HTTP API 创建音色,仅支持非实时语音合成。
- Qwen-TTS:通过 HTTP API 创建音色,支持实时与非实时语音合成。
前提条件
- 已配置 API Key并将其设置到环境变量。
- 如果通过 DashScope SDK 调用,需要安装最新版 SDK。
- 准备音频文件:音频需符合音频要求。
快速开始
声音复刻的使用分为以下三步:
- 准备音频:准备一段符合音频要求的音频文件。
- 创建音色:调用声音复刻接口上传音频创建音色,通过
target_model指定绑定的语音合成模型。 - 使用音色合成语音:调用语音合成接口,传入创建音色时返回的音色 ID。
Qwen-TTS 声音复刻
示例使用本地音频文件 voice.mp3,运行时请替换为实际路径。
创建音色时的
target_model 必须与语音合成时使用的模型完全一致,否则合成将失败。双向流式合成(实时)
适用于 Qwen3-TTS-VC-Realtime 模型。参数详情见实时流式语音合成。
- Python
- Java
非流式合成
适用于 Qwen3-TTS-VC 模型。详见 Qwen TTS。
- Python
- cURL
- Java
CosyVoice 声音复刻
CosyVoice 声音复刻通过专用的声音复刻 API 进行操作,同样遵循"创建音色 - 使用音色合成"的流程。
步骤一:创建音色
调用声音复刻 API 上传音频并创建音色。url 参数传入音频文件的可访问 URL 地址,prefix 参数作为音色名称前缀。
voice 值填入以下请求中。
MiniMax 音色复刻
提交复刻请求后,系统会生成一段试听音频(按同步语音合成单价计费)。首次使用复刻音色进行语音合成时,需支付 9.9 元音色解锁费用。
步骤一:创建音色
调用音色复刻 API 上传音频并创建音色。voice_id 参数用于指定新音色的 ID,audio_url 参数传入音频文件的可访问 URL 地址。
voice_id 值填入以下请求中。
音频要求
输入音频的质量直接决定复刻效果。不同模型系列对音频的具体要求有所差异,请按照目标模型的要求准备音频样本。
- CosyVoice
- Qwen-TTS
- MiniMax
| 项目 | 要求 |
|---|---|
| 支持格式 | WAV(16bit)、MP3、M4A |
| 音频时长 | 推荐 10~20 秒,最长不超过 60 秒 |
| 文件大小 | 不超过 10 MB |
| 采样率 | 16 kHz 及以上 |
| 声道 | 单声道或双声道。双声道音频仅处理首声道,请确保首声道包含有效人声。 |
| 内容 | 音频必须包含至少 5 秒连续清晰的朗读内容(无背景音),其余部分仅允许短暂停顿(不超过 2 秒)。整段音频应避免出现背景音乐、环境噪音或其他人声。请使用正常语速的说话音频,不要上传歌曲或唱歌录音。 |
| 支持语言 | 因驱动音色的语音合成模型(通过 target_model 参数指定)而异,详见下方说明 |
- cosyvoice-v1、cosyvoice-v2:中文(普通话)、英文
- cosyvoice-v3-flash:中文(普通话、广东话、东北话、甘肃话、贵州话、河南话、湖北话、江西话、闽南话、宁夏话、山西话、陕西话、山东话、上海话、四川话、天津话、云南话)、英文、法语、德语、日语、韩语、俄语、葡萄牙语、泰语、印尼语、越南语
- cosyvoice-v3-plus:中文(普通话、广东话、东北话、甘肃话、贵州话、河南话、湖北话、江西话、闽南话、宁夏话、山西话、陕西话、山东话、上海话、四川话、天津话、云南话)、英文、法语、德语、日语、韩语、俄语
- cosyvoice-v3.5-plus、cosyvoice-v3.5-flash:中文(普通话、广东话、东北话、甘肃话、贵州话、河南话、湖北话、江西话、闽南话、宁夏话、山西话、陕西话、山东话、上海话、四川话、天津话、云南话)、英文、法语、德语、日语、韩语、俄语、葡萄牙语、泰语、印尼语、越南语
为获得最佳复刻效果,建议参照录音建议准备样本。
录音建议
高质量的输入音频是获得优质复刻效果的基础。以下从录音设备、录音环境、录音文案和操作流程四个方面提供建议。
录音设备
可使用手机、数字录音笔、专业录音机等。建议使用支持高采样率(24 kHz 及以上)录音的设备,以满足音频要求。
录音环境
场地
- 建议在 10 平方米以内的小型封闭空间录音。
- 优先选择配有吸音材料(如吸音棉、地毯、窗帘)的房间。
- 避免空旷大厅、会议室、教室等高混响场所。
- 室外噪音:关闭门窗,避免交通、施工等干扰。
- 室内噪音:关闭空调、风扇、日光灯镇流器等设备;可通过手机录制环境音并放大播放,识别潜在噪音源。
- 混响会导致声音模糊、清晰度下降。
- 减少光滑表面反射:拉上窗帘、打开衣柜门、铺放衣物或床单覆盖桌面/柜面。
- 利用不规则物体(如书架、软包家具)实现声波漫反射。
录音文案
- 内容无特殊限制,建议与目标应用场景一致。
- 避免短句(如"你好"、"是的"),应使用完整句子。
- 保持语义连贯,朗读时避免频繁停顿(建议至少连续 3 秒无中断)。
- 录音的开头和结尾部分应保持与中间段落一致的语速,避免因开头或结尾语速过快导致复刻后语音合成时出现卡顿现象。
- 可加入适当情绪表达(如温暖、亲切、严肃),避免机械朗读。
- 不包含敏感词汇(如政治、色情、暴力相关内容),否则会导致复刻失败。
操作建议
以普通卧室为例:
- 关闭门窗,隔绝外部噪音。
- 关闭空调、电扇等电器。
- 拉上窗帘,减少玻璃反射。
- 在桌面铺放衣物或毛毯,降低桌面反射。
- 提前熟悉文案,设定角色语气,自然演绎。
- 与录音设备保持约 10 厘米距离,避免喷麦或信号过弱。
管理自定义音色
音色创建完成后,您可以通过 API 对已有音色进行查询和管理(Qwen-TTS 和 CosyVoice 支持)。
MiniMax 仅支持创建音色,不支持查询和删除等音色管理操作。
- 查询音色列表:获取当前账号下所有自定义音色的列表。
- 查询音色详情:查看指定音色的详细信息,如创建时间、绑定的语音合成模型等。
- 删除音色:删除不再需要的自定义音色,释放配额。
适用范围
支持的模型:
- CosyVoice:cosyvoice-v3.5-plus、cosyvoice-v3.5-flash、cosyvoice-v3-plus、cosyvoice-v3-flash、cosyvoice-v2、cosyvoice-v1
- MiniMax:MiniMax/speech-2.8-hd、MiniMax/speech-02-hd、MiniMax/speech-2.8-turbo、MiniMax/speech-02-turbo
- Qwen-TTS:
- Qwen3-TTS-VC-Realtime:qwen3-tts-vc-realtime-2026-01-15(最新快照版)、qwen3-tts-vc-realtime-2025-11-27(快照版)
- Qwen3-TTS-VC:qwen3-tts-vc-2026-01-22(最新快照版)
常见问题
Q:创建音色后可以用于不同的语音合成模型吗?
不可以。音色在创建时通过 target_model 绑定到特定的语音合成模型,不能跨模型使用。如果您需要在多个模型上使用同一段音频的声音,请为每个模型分别创建音色。