CosyVoice 实时语音合成 WebSocket 服务端事件参考
用户指南: 关于模型介绍和选型建议请参见语音合成。
当客户端发送
客户端发送文本后,服务端持续返回
服务端返回
当任务失败时,服务端返回
task-started
当客户端发送 run-task 指令后,服务端返回 task-started 事件,标志任务已成功开启。只有在接收到该事件后,客户端才能继续发送后续指令。
Example
| 字段 | 类型 | 说明 |
|---|---|---|
| header.task_id | string | 客户端生成的任务 ID。 |
| header.event | string | 事件类型,固定为 task-started。 |
| payload | object | 无内容,为空对象。 |
result-generated
客户端发送文本后,服务端持续返回 result-generated 事件。该事件返回句子元信息。
- sentence-begin
- sentence-synthesis
- sentence-end
| 字段 | 类型 | 说明 |
|---|---|---|
| header.task_id | string | 客户端生成的任务 ID。 |
| header.event | string | 事件类型,固定为 result-generated。 |
| payload.output.type | string | 子事件类型,取值:sentence-begin(句子开始,返回待合成的文本内容)、sentence-synthesis(标识音频数据块,每个事件后立即通过 WebSocket binary 通道传输一个音频数据帧)、sentence-end(句子结束,返回文本内容和累计字符数)。 |
| payload.output.sentence.index | integer | 句子编号,从 0 开始。 |
| payload.output.sentence.words | array | 字级别时间戳信息数组。 |
| payload.output.sentence.words[].text | string | 字的文本内容。 |
| payload.output.sentence.words[].begin_index | integer | 字在句子中的开始位置索引,从 0 开始。 |
| payload.output.sentence.words[].end_index | integer | 字在句子中的结束位置索引,从 1 开始。 |
| payload.output.sentence.words[].begin_time | integer | 字对应音频的开始时间戳,单位:毫秒。 |
| payload.output.sentence.words[].end_time | integer | 字对应音频的结束时间戳,单位:毫秒。 |
| payload.output.original_text | string | 分句后的句子文本内容。 |
| payload.usage.characters | integer | 截止当前累计的计费字符数(在 sentence-end 事件中返回)。 |
task-finished
服务端返回 task-finished 事件,标志任务已结束。客户端可以关闭 WebSocket 连接或复用连接开启新任务。
Example
| 字段 | 类型 | 说明 |
|---|---|---|
| header.task_id | string | 客户端生成的任务 ID。 |
| header.event | string | 事件类型,固定为 task-finished。 |
| payload.usage.characters | integer | 截止当前累计的计费字符数。 |
task-failed
当任务失败时,服务端返回 task-failed 事件。客户端需要关闭 WebSocket 连接并处理错误。
Example
| 字段 | 类型 | 说明 |
|---|---|---|
| header.task_id | string | 客户端生成的任务 ID。 |
| header.event | string | 事件类型,固定为 task-failed。 |
| header.error_code | string | 错误码。 |
| header.error_message | string | 具体错误信息。 |

