WebSocket 客户端事件参考
客户端通过 WebSocket 向服务端发送的事件。
建立 WebSocket 连接以启动会话。连接就绪后,服务端会发送
完整 URL:
连接建立后更新会话配置。服务端会校验参数并返回完整配置;如果参数无效则返回错误。
启用声音复刻(
向输入缓冲区追加音频数据。服务端使用该缓冲区进行语音检测和提交时机判断。
从本地文件或实时视频流添加图像数据到缓冲区。
图像限制:
结束会话。服务端根据是否检测到语音做出不同响应:
参考:语音翻译。
Connect
建立 WebSocket 连接以启动会话。连接就绪后,服务端会发送 session.created 事件。
| 配置项 | 值 |
|---|---|
| 端点 | wss://dashscope.aliyuncs.com/api-ws/v1/realtime |
| 查询参数 | model=qwen3.5-livetranslate-flash-realtime |
| 鉴权头 | Authorization: Bearer $DASHSCOPE_API_KEY |
| 协议 | JSON 文本帧 |
session.update
连接建立后更新会话配置。服务端会校验参数并返回完整配置;如果参数无效则返回错误。
Example
frequency=once)的示例:
Example (voice clone)
string
body
必填
固定为
"session.update"。object
body
会话配置。
input_audio_buffer.append
向输入缓冲区追加音频数据。服务端使用该缓冲区进行语音检测和提交时机判断。
Example
string
body
必填
固定为
"input_audio_buffer.append"。string
body
必填
Base64 编码的音频数据。
input_image_buffer.append
从本地文件或实时视频流添加图像数据到缓冲区。
图像限制:
- 格式:JPG 或 JPEG。推荐分辨率:480p 或 720p。最大:1080p。
- 最大文件大小:500 KB(Base64 编码前)。
- 必须进行 Base64 编码。
- 最大速率:每秒 2 张图像。
- 建议先发送至少一个
input_audio_buffer.append事件,以确保服务端有音频上下文。
Example
string
body
必填
固定为
"input_image_buffer.append"。string
body
必填
Base64 编码的图像数据。
session.finish
结束会话。服务端根据是否检测到语音做出不同响应:
- 检测到语音: 服务端完成识别,先发送 conversation.item.input_audio_transcription.completed 返回结果,再发送 session.finished。
- 未检测到语音: 服务端直接发送 session.finished。
session.finished 后断开连接。
Example
string
body
必填
固定为
"session.finish"。
