声音复刻 API 参考:上传音频创建定制音色,用于 Qwen-Omni 对话
声音复刻依托大模型进行特征提取,无需训练即可复刻声音。仅需提供 10~20 秒的音频,即可生成高度相似且听感自然的定制音色。声音复刻与模型调用是前后关联的两个步骤。本文档聚焦于介绍声音复刻的参数和接口细节,模型调用请参见实时多模态语音或非实时多模态语音。
用户指南:关于模型介绍和选型建议请参见实时多模态语音或非实时多模态语音。
高质量的输入音频是获得优质复刻效果的基础。
声音复刻与模型调用是紧密关联的两个独立步骤,遵循"先创建,后使用"的流程:
选择合适的模型并完成准备工作。
声音复刻时需要指定以下两个模型:
以下示例演示了如何在对话中使用声音复刻生成的专属音色,实现与原音高度相似的输出效果。
使用不同 API 时,请确保使用同一账号进行操作。
上传用于复刻的音频,创建自定义音色。
URL
请求头
消息体
请求参数
响应参数
示例代码
分页查询已创建的音色列表。
URL
请求头
消息体
请求参数
响应参数
示例代码
删除指定音色,释放对应额度。
URL
请求头
消息体
请求参数
响应参数
示例代码
如何使用声音复刻生成的专属音色进行对话,请参见端到端示例。
声音复刻和模型调用分开计费:
您需对所提供声音的所有权及合法使用权负责。
推荐使用具备降噪功能的麦克风,或在安静环境下使用手机近距离录音,以保证音源纯净。
场地
以普通卧室为例:
如遇报错问题,请参见错误信息进行排查。
本文档专用于千问Omni和千问Omni-Realtime声音复刻接口;若您使用的是语音合成模型,请参见语音合成声音复刻。
音频要求
高质量的输入音频是获得优质复刻效果的基础。
| 项目 | 要求 |
|---|---|
| 支持格式 | WAV (16bit)、MP3、M4A |
| 音频时长 | 推荐 10~20 秒,最长不超过 60 秒 |
| 文件大小 | < 10 MB |
| 采样率 | >= 24 kHz |
| 声道 | 单声道 |
| 内容 | 音频必须包含至少 3 秒连续清晰朗读(无背景音),其余部分仅允许短暂停顿(<= 2 秒);整段音频应避免背景音乐、噪音或其他人声,确保核心朗读内容质量;请使用正常说话音频作为输入,不要上传歌曲或唱歌音频,以确保复刻效果准确和可用 |
| 语言 | 中文(zh)、英文(en)、德语(de)、意大利语(it)、葡萄牙语(pt)、西班牙语(es)、日语(ja)、韩语(ko)、法语(fr)、俄语(ru)、泰语(th)、印尼语(id)、阿拉伯语(ar)、捷克语(cs)、丹麦语(da)、荷兰语(nl)、芬兰语(fi)、希伯来语(he)、印地语(hi)、冰岛语(is)、马来语(ms)、挪威语(no)、波斯语(fa)、波兰语(pl)、瑞典语(sv)、他加禄语(tl)、土耳其语(tr)、乌尔都语(ur)、越南语(vi)。中文方言:东北话(Dongbei)、陕西话(Shannxi)、四川话(Sichuan)、河南话(Henan)、长沙话(Changsha)、天津话(Tianjin)、杭州话(Hangzhou)、辽宁话(Liaoning)、沈阳话(Shenyang)、鞍山话(Anshan) |
快速开始:复刻与使用音色
1. 工作流程
声音复刻与模型调用是紧密关联的两个独立步骤,遵循"先创建,后使用"的流程:
-
创建音色
调用创建音色接口,上传一段音频。系统会分析该音频,创建一个专属的复刻音色。此步骤必须指定
target_model,声明创建的音色将由哪个全模态模型驱动。 若已有创建好的音色(调用查询音色列表接口查看),可跳过这一步直接进行下一步。 -
使用音色进行对话
调用 Omni 接口(实时或非实时),传入上一步获得的音色。此步骤指定的全模态模型必须和上一步的
target_model一致。
2. 模型配置与准备工作
选择合适的模型并完成准备工作。
模型配置
声音复刻时需要指定以下两个模型:
- 声音复刻模型:
qwen-voice-enrollment - 驱动音色的全模态模型:
qwen3.5-omni-plus-realtimeqwen3.5-omni-flash-realtimeqwen3.5-omni-plusqwen3.5-omni-flash
准备工作
- 获取 API Key:获取 API Key,为安全起见,推荐将 API Key 配置到环境变量。
- 安装 SDK:确保已安装最新版 DashScope SDK。
- 准备待复刻音频:音频需符合音频要求。
3. 端到端示例
以下示例演示了如何在对话中使用声音复刻生成的专属音色,实现与原音高度相似的输出效果。
- 关键原则:声音复刻时,
target_model(驱动音色的全模态模型)必须与后续调用 Omni 接口时指定的模型一致,否则会合成失败。 - 示例使用本地音频文件
voice.mp3进行声音复刻,运行代码时,请注意替换。
- 实时
- 非实时
适用于 Qwen-Omni-Realtime 系列模型,更多说明请参见实时多模态语音。
API 参考
使用不同 API 时,请确保使用同一账号进行操作。
创建音色
上传用于复刻的音频,创建自定义音色。
URL
| 参数 | 类型 | 必须 | 说明 |
|---|---|---|---|
| Authorization | string | 是 | 鉴权令牌,格式为 Bearer $DASHSCOPE_API_KEY。 |
| Content-Type | string | 是 | 请求体中传输的数据的媒体类型。固定为 application/json。 |
注意区分如下参数:
model:声音复刻模型,固定为qwen-voice-enrollmenttarget_model:驱动音色的全模态模型,须和后续调用 Omni 接口时使用的全模态模型一致,否则合成会失败
| 参数 | 类型 | 默认值 | 必须 | 说明 |
|---|---|---|---|---|
| model | string | - | 是 | 声音复刻模型,固定为 qwen-voice-enrollment。 |
| action | string | - | 是 | 操作类型,固定为 create。 |
| target_model | string | - | 是 | 驱动音色的全模态模型:qwen3.5-omni-plus-realtime、qwen3.5-omni-flash-realtime、qwen3.5-omni-plus、qwen3.5-omni-flash。必须与后续调用全模态接口时使用的模型一致,否则合成会失败。 |
| preferred_name | string | - | 是 | 为音色指定一个便于识别的名称(仅允许数字、大小写字母和下划线,不超过 16 个字符)。建议选用与角色、场景相关的标识。该关键字会在复刻的音色名中出现,例如关键字为"guanyu",最终音色名为"qwen-omni-vc-guanyu-voice-20250812105009984-838b"。 |
| audio.data | string | - | 是 | 用于复刻的音频。可通过以下两种方式提交**:1) Data URL**:格式为 data:<mediatype>;base64,<data>,支持 audio/wav、audio/mpeg、audio/mp4。Base64 编码会增大体积,请控制原文件大小,确保编码后仍小于 10 MB。2) 音频 URL:文件大小不超过 10 MB,URL 必须公网可访问且无需鉴权。 |
| text | string | - | 否 | 与 audio.data 音频内容相匹配的文本。传入该参数后,服务端会对比音频与该文本的差异,若差异过大,将返回 Audio.PreprocessError。 |
| language | string | - | 否 | audio.data 音频对应的语种。支持 zh(中文)、en(英文)、de(德语)、it(意大利语)、pt(葡萄牙语)、es(西班牙语)、ja(日语)、ko(韩语)、fr(法语)、ru(俄语)、th(泰语)、id(印尼语)、ar(阿拉伯语)等。中文方言:Dongbei(东北话)、Shannxi(陕西话)、Sichuan(四川话)等。若使用该参数,设置的语种要和实际用于复刻的音频的语种一致。 |
| 参数 | 类型 | 说明 |
|---|---|---|
| voice | string | 音色名称,可直接用于 Omni 接口的 voice 参数。 |
| target_model | string | 驱动音色的全模态模型。 |
| request_id | string | Request ID。 |
| count | integer | 本次请求实际计入费用的"创建音色"次数。创建音色时,count 恒为 1。 |
注意区分如下参数:
model:声音复刻模型,固定为qwen-voice-enrollment,请勿修改target_model:驱动音色的全模态模型
查询音色列表
分页查询已创建的音色列表。
URL
| 参数 | 类型 | 必须 | 说明 |
|---|---|---|---|
| Authorization | string | 是 | 鉴权令牌,格式为 Bearer $DASHSCOPE_API_KEY。 |
| Content-Type | string | 是 | 请求体中传输的数据的媒体类型。固定为 application/json。 |
model:声音复刻模型,固定为 qwen-voice-enrollment,请勿修改。| 参数 | 类型 | 默认值 | 必须 | 说明 |
|---|---|---|---|---|
| model | string | - | 是 | 声音复刻模型,固定为 qwen-voice-enrollment。 |
| action | string | - | 是 | 操作类型,固定为 list。 |
| page_index | integer | 0 | 否 | 页码索引。取值范围:[0, 1000000]。 |
| page_size | integer | 10 | 否 | 每页包含数据条数。取值范围:[0, 1000000]。 |
| 参数 | 类型 | 说明 |
|---|---|---|
| voice | string | 音色名称,可直接用于 Omni 接口的 voice 参数。 |
| gmt_create | string | 创建音色的时间。 |
| target_model | string | 驱动音色的全模态模型。 |
| request_id | string | Request ID。 |
| count | integer | 查询音色不计费,因此 count 恒为 0。 |
删除音色
删除指定音色,释放对应额度。
URL
| 参数 | 类型 | 必须 | 说明 |
|---|---|---|---|
| Authorization | string | 是 | 鉴权令牌,格式为 Bearer $DASHSCOPE_API_KEY。 |
| Content-Type | string | 是 | 请求体中传输的数据的媒体类型。固定为 application/json。 |
model:声音复刻模型,固定为 qwen-voice-enrollment,请勿修改。| 参数 | 类型 | 默认值 | 必须 | 说明 |
|---|---|---|---|---|
| model | string | - | 是 | 声音复刻模型,固定为 qwen-voice-enrollment。 |
| action | string | - | 是 | 操作类型,固定为 delete。 |
| voice | string | - | 是 | 待删除的音色。 |
| 参数 | 类型 | 说明 |
|---|---|---|
| request_id | string | Request ID。 |
| count | integer | 删除音色不计费,因此 count 恒为 0。 |
对话使用
如何使用声音复刻生成的专属音色进行对话,请参见端到端示例。
音色配额与自动清理规则
- 总数限制:1000 个音色/账号。当前接口不提供音色数量查询功能,可通过调用查询音色列表接口自行统计音色数目。
- 自动清理:若单个音色在过去一年内未被用于任何模型调用请求,系统将自动将其删除。
计费说明
声音复刻和模型调用分开计费:
- 声音复刻:创建音色按 0.01 元/个计费,创建失败不计费。
免费额度说明:
- 千问云开通后 90 天内,可享 1000 次免费音色创建机会。
- 创建失败不占用免费次数。
- 删除音色不会恢复免费次数。
- 免费额度用完或超出 90 天有效期后,创建音色将按 0.01 元/个的价格计费。
- 使用复刻生成的专属音色进行对话:按模型调用的 token 用量计费,详情请参见计费说明。
版权与合法性
您需对所提供声音的所有权及合法使用权负责。
录音操作指南
录音设备
推荐使用具备降噪功能的麦克风,或在安静环境下使用手机近距离录音,以保证音源纯净。
录音环境
场地
- 建议在 10 平方米以内的小型封闭空间录音。
- 优先选择配有吸音材料(如吸音棉、地毯、窗帘)的房间。
- 避免空旷大厅、会议室、教室等高混响场所。
- 室外噪音:关闭门窗,避免交通、施工等干扰。
- 室内噪音:关闭空调、风扇、日光灯镇流器等设备;可通过手机录制环境音并放大播放,识别潜在噪音源。
- 混响会导致声音模糊、清晰度下降。
- 减少光滑表面反射:拉上窗帘、打开衣柜门、铺放衣物或床单覆盖桌面/柜面。
- 利用不规则物体(如书架、软包家具)实现声波漫反射。
录音文案
- 文案内容灵活,建议与目标应用场景一致(例如,若用于客服场景,文案应为客服对话风格),但必须确保不包含任何敏感或非法词汇(如政治、色情、暴力相关内容),否则会导致复刻失败。
- 避免短句(如"你好"、"是的"),应使用完整句子。
- 保持语义连贯,朗读时避免频繁停顿(建议至少连续 3 秒无中断)。
- 可带入目标情绪(如亲切、严肃),但需避免过度夸张的戏剧化朗读,保持语调自然。
操作建议
以普通卧室为例:
- 关闭门窗,隔绝外部噪音。
- 关闭空调、电扇等电器。
- 拉上窗帘,减少玻璃反射。
- 在桌面铺放衣物或毛毯,降低桌面反射。
- 提前熟悉文案,设定角色语气,自然演绎。
- 与录音设备保持约 10 厘米距离,避免喷麦或信号过弱。

