创建音色 - 千问云

POST

/services/audio/tts/customization

cURL

curl -X POST https://dashscope.aliyuncs.com/api/v1/services/audio/tts/customization \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
  "model": "qwen-voice-design",
  "input": {
    "action": "create",
    "target_model": "qwen3-tts-vd-realtime-2026-01-15",
    "voice_prompt": "语速适中，音调偏高，充满活力",
    "preview_text": "你好，欢迎使用声音设计功能。",
    "preferred_name": "mydesign"
  }
}'

{
  "output": {
    "voice": "qwen-tts-vd-announcer-voice-20251201102800-a1b2",
    "preview_audio": {
      "data": "{base64_encoded_audio}",
      "sample_rate": 24000,
      "response_format": "wav"
    },
    "target_model": "qwen3-tts-vd-realtime-2026-01-15"
  },
  "usage": {
    "count": 1
  },
  "request_id": "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx"
}

model 是设计模型（固定为 qwen-voice-design）。target_model 是驱动所创建音色的合成模型。后续合成调用中的 model 必须与 target_model 一致，不匹配会导致调用失败。

鉴权

string

header

必填

千问云 API Key。详见获取 API Key。

请求体

application/json

enum<string>

必填

语音设计模型，固定值为 qwen-voice-design。

可选值：qwen-voice-design

示例:qwen-voice-design

object

必填

显示子属性

enum<string>

必填

操作类型，固定值为 create。

可选值：create

示例:create

enum<string>

必填

音色绑定的合成模型，后续合成调用时需传入相同模型。可选值：qwen3-tts-vd-realtime-2026-01-15、qwen3-tts-vd-realtime-2025-12-16（实时），qwen3-tts-vd-2026-01-26（非实时）。

可选值：qwen3-tts-vd-realtime-2026-01-15,qwen3-tts-vd-realtime-2025-12-16,qwen3-tts-vd-2026-01-26

示例:qwen3-tts-vd-realtime-2026-01-15

string

必填

音色描述文本，最多 2,048 个字符，仅支持中英文。参见如何撰写有效的音色描述。

示例:A composed middle-aged male announcer with a deep, rich and magnetic voice, suitable for news broadcasting.

取值范围：length <= 2048

string

必填

用于生成预览音频的文本，最多 1,024 个字符，须使用支持的语言。

示例:Dear listeners, hello everyone. Welcome to the evening news.

取值范围：length <= 1024

string

音色名称关键词（仅支持字母、数字和下划线，最多 16 个字符），会出现在生成的音色名称中。例如传入 announcer，生成的名称为 qwen-tts-vd-announcer-voice-20251201102800-a1b2。

示例:announcer

取值范围：length <= 16pattern: ^[a-zA-Z0-9_]+$

enum<string>

默认值"zh"

生成音色的语言代码，须与 preview_text 的语言一致。

可选值：zh,en,de,it,pt,es,ja,ko,fr,ru

示例:en

object

显示子属性

enum<integer>

默认值24000

预览音频的采样率（Hz）。

可选值：8000,16000,24000,48000

示例:24000

enum<string>

默认值"wav"

预览音频的输出格式。

可选值：pcm,wav,mp3,opus

示例:wav

响应

200-application/json

object

显示子属性

string

生成的音色名称，合成 API 调用时将此值作为 voice 参数传入。

示例:qwen-tts-vd-announcer-voice-20251201102800-a1b2

object

显示子属性

string

Base64 编码的预览音频，解码后可得到音频文件。

示例:{base64_encoded_audio}

integer

预览音频的采样率。

示例:24000

string

预览音频的格式。

示例:wav

string

与该音色绑定的合成模型。

示例:qwen3-tts-vd-realtime-2026-01-15

object

显示子属性

integer

本次计费的音色创建次数，创建成功固定为 1。

示例:1

string

请求 ID，用于问题排查。

示例:xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx