跳转到主要内容

CosyVoice 声音复刻

CosyVoice 声音复刻通过专用的声音复刻 API 进行操作,同样遵循"创建音色 - 使用音色合成"的流程。 步骤一:创建音色 调用声音复刻 API 上传音频并创建音色。url 参数传入音频文件的可访问 URL 地址,prefix 参数作为音色名称前缀。
# 将 url 替换为实际音频文件的可访问地址
# 获取 API Key:https://help.aliyun.com/zh/model-studio/get-api-key

curl -X POST https://dashscope.aliyuncs.com/api/v1/services/audio/tts/customization \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
    "model": "voice-enrollment",
    "input": {
        "action": "create_voice",
        "target_model": "cosyvoice-v3-plus",
        "prefix": "myvoice",
        "url": "https://your-audio-url.wav",
        "language_hints": ["zh"]
    }
}'
步骤二:使用复刻音色合成语音 将上一步返回的 voice 值填入以下请求中。
# 将 YOUR_VOICE_ID 替换为上一步返回的 voice 值

curl -X POST https://dashscope.aliyuncs.com/api/v1/services/audio/tts/SpeechSynthesizer \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
    "model": "cosyvoice-v3-plus",
    "input": {
      "text": "今天天气怎么样?",
      "voice": "YOUR_VOICE_ID",
      "format": "wav",
      "sample_rate": 24000
    }
}'

MiniMax 音色复刻

提交复刻请求后,系统会生成一段试听音频(按同步语音合成单价计费)。首次使用复刻音色进行语音合成时,需支付 9.9 元音色解锁费用。 步骤一:创建音色 调用音色复刻 API 上传音频并创建音色。voice_id 参数用于指定新音色的 ID,audio_url 参数传入音频文件的可访问 URL 地址。
# 将 audio_url 替换为实际音频文件的可访问地址
# 将 voice_id 替换为自定义的音色 ID
# 获取 API Key:https://help.aliyun.com/zh/model-studio/get-api-key

curl -X POST 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H 'Content-Type: application/json; charset=utf-8' \
-d '{
    "input": {
      "action": "voice_clone",
      "voice_id": "my-custom-voice",
      "audio_url": "https://your-audio-url.wav",
      "text": "你说是什么就是什么"
    },
    "model": "MiniMax/speech-2.8-turbo"
  }'
步骤二:使用复刻音色合成语音 将上一步指定的 voice_id 值填入以下请求中。
# 将 voice_id 替换为上一步指定的音色 ID

curl -X POST "https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation" \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "model": "MiniMax/speech-2.8-turbo",
  "input": {
    "text": "今天天气怎么样?",
    "voice_setting": {
      "voice_id": "my-custom-voice",
      "speed": 1,
      "vol": 1,
      "pitch": 0
    },
    "audio_setting": {
      "sample_rate": 32000,
      "bitrate": 128000,
      "format": "mp3",
      "channel": 1
    }
  }
}'

音频要求

输入音频的质量直接决定复刻效果。不同模型系列对音频的具体要求有所差异,请按照目标模型的要求准备音频样本。
  • CosyVoice
  • Qwen-TTS
  • MiniMax
项目要求
支持格式WAV(16bit)、MP3、M4A
音频时长推荐 10~20 秒,最长不超过 60 秒
文件大小不超过 10 MB
采样率16 kHz 及以上
声道单声道或双声道。双声道音频仅处理首声道,请确保首声道包含有效人声。
内容音频必须包含至少 5 秒连续清晰的朗读内容(无背景音),其余部分仅允许短暂停顿(不超过 2 秒)。整段音频应避免出现背景音乐、环境噪音或其他人声。请使用正常语速的说话音频,不要上传歌曲或唱歌录音。
支持语言因驱动音色的语音合成模型(通过 target_model 参数指定)而异,详见下方说明
各模型支持的语言
  • cosyvoice-v1、cosyvoice-v2:中文(普通话)、英文
  • cosyvoice-v3-flash:中文(普通话、广东话、东北话、甘肃话、贵州话、河南话、湖北话、江西话、闽南话、宁夏话、山西话、陕西话、山东话、上海话、四川话、天津话、云南话)、英文、法语、德语、日语、韩语、俄语、葡萄牙语、泰语、印尼语、越南语
  • cosyvoice-v3-plus:中文(普通话)、英文、法语、德语、日语、韩语、俄语
  • cosyvoice-v3.5-plus、cosyvoice-v3.5-flash:中文(普通话、广东话、河南话、湖北话、闽南话、宁夏话、陕西话、山东话、上海话、四川话)、英文、法语、德语、日语、韩语、俄语、葡萄牙语、泰语、印尼语、越南语
为获得最佳复刻效果,建议参照录音建议准备样本。

录音建议

高质量的输入音频是获得优质复刻效果的基础。以下从录音设备、录音环境、录音文案和操作流程四个方面提供建议。

录音设备

可使用手机、数字录音笔、专业录音机等。建议使用支持高采样率(24 kHz 及以上)录音的设备,以满足音频要求。

录音环境

场地 噪音控制 混响控制

录音文案

操作建议

以普通卧室为例:
  1. 关闭门窗,隔绝外部噪音。
  2. 关闭空调、电扇等电器。
  3. 拉上窗帘,减少玻璃反射。
  4. 在桌面铺放衣物或毛毯,降低桌面反射。
  5. 提前熟悉文案,设定角色语气,自然演绎。
  6. 与录音设备保持约 10 厘米距离,避免喷麦或信号过弱。

管理自定义音色

音色创建完成后,您可以通过 API 对已有音色进行查询和管理(Qwen-TTS 和 CosyVoice 支持)。 MiniMax 仅支持创建音色,不支持查询和删除等音色管理操作。 各模型的 API 接口和参数详情请参见 API 参考

适用范围

支持的模型:

常见问题

Q:创建音色后可以用于不同的语音合成模型吗?

不可以。音色在创建时通过 target_model 绑定到特定的语音合成模型,不能跨模型使用。如果您需要在多个模型上使用同一段音频的声音,请为每个模型分别创建音色。

Q:复刻音色的有效期是多久?

Qwen-TTS 和 CosyVoice 创建的音色默认长期有效,但长时间未使用的音色可能会被系统清理。建议妥善保存音色 ID,需要时可通过查询接口确认音色是否仍然可用。

Q:音频质量不好会影响复刻效果吗?

会的。输入音频的质量直接影响复刻效果。背景噪音、混响、多人声等问题都会降低复刻音色的相似度和自然度。建议参照音频要求录音建议准备样本。

API 参考

声音复刻 API