跳转到主要内容
MiniMax

MiniMax 语音合成 API 参考

MiniMax 同步语音合成 API,支持非流式和 SSE 流式两种模式,将文本转换为音频。

支持的模型

模型名称单价/万字符复刻音色免费额度
MiniMax/speech-2.8-hd3.5元9.9元(首次使用时收取)
MiniMax/speech-02-hd3.5元9.9元(首次使用时收取)
MiniMax/speech-2.8-turbo2元9.9元(首次使用时收取)
MiniMax/speech-02-turbo2元9.9元(首次使用时收取)

请求端点

POST https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation

请求头

参数类型是否必选说明
Authorizationstring必选鉴权信息,格式为 Bearer $DASHSCOPE_API_KEY
Content-Typestring必选请求体格式,固定为 application/json
X-DashScope-SSEstring可选设置为 enable 时开启 SSE 流式输出

请求体

顶层字段

参数类型是否必选说明
modelstring必选模型名称,可选值见支持的模型
inputobject必选输入数据,详见 input 参数

input 参数

参数类型是否必选说明
textstring必选待合成的文本,最多 10000 个字符。超过 3000 个字符时建议使用流式模式
voice_settingobject必选音色设置,详见 voice_setting 参数
audio_settingobject可选音频输出设置,详见 audio_setting 参数
pronunciation_dictobject可选自定义发音词典,详见 pronunciation_dict 参数
timbre_weightsobject[]可选混合音色配置,最多支持 4 个音色,详见 timbre_weights 参数
language_booststring可选语言增强,默认为 null。支持 auto 或指定语言,详见支持的语言
voice_modifyobject可选音效调整,详见 voice_modify 参数
subtitle_enableboolean可选是否返回字幕信息,默认为 false。仅非流式模式可用,支持 speech-2.8-hd、speech-2.8-turbo、speech-2.6-hd、speech-2.6-turbo、speech-02-hd、speech-02-turbo、speech-01-hd、speech-01-turbo
output_formatstring可选音频数据返回格式,默认为 hex。可选值:url(有效期24小时)或 hex(二进制 hex 编码)。仅非流式模式可用
aigc_watermarkboolean可选是否在音频末尾添加 AIGC 隐水印,默认为 false。仅非流式模式可用

voice_setting 参数

参数类型是否必选说明
voice_idstring必选音色 ID。使用 timbre_weights 混合音色时可留空
speedfloat可选语速,默认 1.0,范围 [0.5, 2.0]
volfloat可选音量,默认 1.0,范围 (0.0, 10.0]
pitchinteger可选音调,默认 0,范围 [-12, 12]
emotionstring可选情感风格。可选值:happysadangryfearfuldisgustedsurprisedcalmwhisper。注意:speech-2.8-hd 和 speech-2.8-turbo 不支持 whisper
text_normalizationboolean可选是否对数字等内容进行中英文文本规范化处理,默认 false
latex_readboolean可选是否朗读 LaTeX 公式,默认 false。仅支持中文,启用后自动将 language_boost 设置为中文。公式需用 $ 包裹,反斜杠需转义为 \\

audio_setting 参数

参数类型是否必选说明
sample_rateinteger可选采样率,默认 32000。可选值:8000、16000、22050、24000、32000、44100
bitrateinteger可选比特率,默认 128000。可选值:32000、64000、128000、256000。仅在 formatmp3 时生效
formatstring可选音频格式,默认 mp3。可选值:mp3pcmflacwavwav 格式仅支持非流式模式
channelinteger可选声道数,默认 1。可选值:1(单声道)或 2(立体声)
force_cbrboolean可选是否使用固定码率编码,默认 false。仅在流式 mp3 模式下生效

pronunciation_dict 参数

参数类型是否必选说明
tonestring[]可选自定义读音规则列表。分隔符为 /,中文声调用数字 1-5 表示。示例:["燕少飞/(yan4)(shao3)(fei1)", "omg/oh my god"]

timbre_weights 参数

数组中每个对象包含以下字段:
参数类型是否必选说明
voice_idstring必选音色 ID
weightinteger必选该音色的权重,范围 [1, 100]

voice_modify 参数

非流式模式支持 mp3、wav、flac 格式;流式模式仅支持 mp3 格式。
参数类型是否必选说明
pitchinteger可选音调,范围 [-100, 100],值越低音调越低
intensityinteger可选强度,范围 [-100, 100],值越低强度越强
timbreinteger可选音色,范围 [-100, 100],值越低音色越浑厚
sound_effectsstring可选音效效果。可选值:spacious_echo(宽阔回声)、auditorium_echo(礼堂回声)、lofi_telephone(复古电话)、robotic(机械音)

language_boost 支持的语言

language_boost 支持以下语言值: ChineseChinese,YueEnglishArabicRussianSpanishFrenchPortugueseGermanTurkishDutchUkrainianVietnameseIndonesianJapaneseItalianKoreanThaiPolishRomanianGreekCzechFinnishHindiBulgarianDanishHebrewMalayPersianSlovakSwedishCroatianFilipinoHungarianNorwegianSlovenianCatalanNynorskTamilAfrikaansauto

请求示例

curl -X POST "https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation" \
  -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
  -H "Content-Type: application/json" \
  -d '{
  "model": "MiniMax/speech-2.8-hd",
  "input": {
    "text": "今天是不是很开心呀(laughs),当然了!",
    "voice_setting": {
      "voice_id": "male-qn-qingse",
      "speed": 1,
      "vol": 1,
      "pitch": 0,
      "emotion": "happy"
    },
    "audio_setting": {
      "sample_rate": 32000,
      "bitrate": 128000,
      "format": "mp3",
      "channel": 1
    },
    "pronunciation_dict": {
      "tone": [
        "处理/(chu3)(li3)",
        "危险/dangerous"
      ]
    },
    "subtitle_enable": false
  }
}'

响应体

顶层字段

参数类型说明
request_idstring本次调用的唯一标识
outputobject模型输出数据,详见 output 字段
usageobject用量信息,详见 usage 字段

output 字段

参数类型说明
base_respobject状态信息,详见 base_resp 字段
dataobject音频数据,合成失败时为 null,详见 data 字段
extra_infoobject附加信息,详见 extra_info 字段
trace_idstring本次会话 ID,用于问题排查

base_resp 字段

参数类型说明
status_codeinteger状态码。0=成功;1000=未知错误;1001=超时;1002=触发限流;1004=鉴权失败;1039=触发 TPM 限流;1042=超过 10% 的无效字符;2013=参数不合法
status_msgstring状态描述

data 字段

参数类型说明
audiostringhex 编码的音频二进制数据
statusinteger合成状态。1=合成中;2=合成完成

extra_info 字段

参数类型说明
audio_lengthinteger音频时长(毫秒)
audio_sample_rateinteger音频采样率
audio_sizeinteger音频大小(字节)
bitrateinteger音频比特率
audio_formatstring音频格式,可选值:mp3pcmflac
audio_channelinteger声道数,1 表示单声道,2 表示立体声
invisible_character_ratiofloat无效字符占比。不超过 10% 时正常合成;超过 10% 时返回错误
usage_charactersinteger计费字符数
word_countinteger词语数量(不含标点符号)

usage 字段

参数类型说明
charactersinteger输入文本的字符数

响应示例

{
  "output": {
    "base_resp": {
      "status_code": 0,
      "status_msg": "success"
    },
    "data": {
      "audio": "<hex编码的audio>",
      "status": 2
    },
    "extra_info": {
      "audio_channel": 1,
      "audio_format": "mp3",
      "audio_length": 3528,
      "audio_sample_rate": 16000,
      "audio_size": 58164,
      "bitrate": 128000,
      "invisible_character_ratio": 0,
      "usage_characters": 26,
      "word_count": 14
    },
    "trace_id": "05fdef92e4c1b32283e3d1c456971a80"
  },
  "usage": {
    "characters": 26
  },
  "request_id": "233b9516-1038-9697-b458-87e95a1f8108"
}