跳转到主要内容
header 参数
参数类型是否必选说明
header.actionstring指令类型。设为 run-task
header.task_idstring唯一任务 ID。在 finish-task 指令中须使用相同值。
header.streamingstring通信模式。设为 duplex
payload 参数
参数类型是否必选说明
payload.task_groupstring任务组。设为 audio
payload.taskstring任务类型。设为 asr
payload.functionstring功能类型。设为 recognition
payload.modelstring模型名称。请参见模型列表。
payload.inputobject输入配置。设为 {}
payload.parameters
formatstring音频格式:pcmwavmp3opusspeexaacamr。详见 WebSocket API 音频要求
sample_rateinteger音频采样率,单位 Hz。推荐使用 16000 Hz。
vocabulary_idstring热词表 ID,用于热词识别。详见自定义热词
semantic_punctuation_enabledboolean是否启用语义标点。默认值:false
- true:高精度标点,适用于会议场景。启用后将禁用 VAD 标点。
- false:低延迟 VAD 标点,适用于交互场景。
语义标点在断句准确性上更优,VAD 标点响应更快。
max_sentence_silenceintegerVAD 静音阈值,单位毫秒。静音时长超过此值时断句。默认值:1300。取值范围:[200, 6000]。仅在 semantic_punctuation_enabledfalse 时生效。
multi_threshold_mode_enabledboolean防止 VAD 模式下产生过长语句。默认值:false。仅在 semantic_punctuation_enabledfalse 时生效。
heartbeatboolean是否启用保活。默认值:false
- true:持续发送静音音频时保持连接不断开。
- false:连续 60 秒发送静音音频后连接超时断开。
language_hintsarray[string]识别语言代码。不设置时自动检测语言。支持的语言代码:zh(中文)、en(英文)、ja(日文)。
speech_noise_thresholdfloat语音噪声检测阈值,用于调节 VAD 灵敏度。取值范围:[-1.0, 1.0]。接近 -1:更多噪声可能被识别为语音。接近 +1:部分语音可能被过滤为噪声。
speech_noise_threshold 是高级参数,微小的调整会显著影响识别质量。建议以 0.1 为步长逐步调整,并充分测试。

finish-task

通知服务器音频传输已完成。 发送时机:所有音频数据发送完毕后。 响应:服务端返回 task-finished 事件。 示例
{
  "header": {
    "action": "finish-task",
    "task_id": "2bf83b9a-baeb-4fda-8d9a-xxxxxxxxxxxx",
    "streaming": "duplex"
  },
  "payload": {
    "input": {}
  }
}
header 参数
参数类型是否必选说明
header.actionstring指令类型。设为 finish-task
header.task_idstring任务 ID。须与 run-task 指令中的 task_id 一致。
header.streamingstring通信模式。设为 duplex
payload 参数
参数类型是否必选说明
payload.inputobject输入配置。设为 {}
Fun-ASR 客户端事件 - 千问云