WebSocket 服务端事件参考
WebSocket 会话中服务端发送的事件。
客户端或服务端发生错误时发送。
连接建立后的第一个事件,包含默认的会话配置。
session.update 事件处理完成后发送。如果处理失败,则发送
VAD 模式下,检测到音频缓冲区中有语音开始时发送。
VAD 模式下,检测到音频缓冲区中语音结束时发送。紧接着会发送
输入音频缓冲区提交后发送。
对话项创建时发送。
高频发送,包含实时识别结果。
发送最终识别结果,标志着一个对话项的结束。
输入音频识别失败时发送。该事件独立于其他
确认所有识别已完成。在您发送 session.finish 后返回。收到此事件后即可断开连接。
使用指南: 功能概述和示例代码请参见实时语音识别。
error
客户端或服务端发生错误时发送。
Example
string
body
事件的唯一标识符。
string
body
事件类型,固定为
error。object
body
错误详情。
session.created
连接建立后的第一个事件,包含默认的会话配置。
Example
string
body
事件的唯一标识符。
string
body
事件类型,固定为
session.created。object
body
会话配置。
session.updated
session.update 事件处理完成后发送。如果处理失败,则发送 error 事件。
其他参数说明请参见 session.created。
Example
string
body
事件的唯一标识符。
string
body
事件类型,固定为
session.updated。input_audio_buffer.speech_started
VAD 模式下,检测到音频缓冲区中有语音开始时发送。
每次向缓冲区添加音频时都会触发,除非语音起始点已被检测到。
Example
string
body
事件的唯一标识符。
string
body
事件类型,固定为
input_audio_buffer.speech_started。integer
body
从缓冲区起始到检测到语音的时间(毫秒)。
string
body
即将创建的用户消息项 ID。
input_audio_buffer.speech_stopped
VAD 模式下,检测到音频缓冲区中语音结束时发送。紧接着会发送 conversation.item.created 事件,包含用户消息项。
Example
string
body
事件的唯一标识符。
string
body
事件类型,固定为
input_audio_buffer.speech_stopped。integer
body
从会话开始到语音结束的时间(毫秒)。
string
body
语音结束时创建的用户消息项 ID。
input_audio_buffer.committed
输入音频缓冲区提交后发送。
- VAD 模式: 服务端检测到语音段结束后自动触发。
- 手动模式: 通过 input_audio_buffer.append 发送完音频,再发送 input_audio_buffer.commit 后触发。
Example
string
body
事件的唯一标识符。
string
body
事件类型,固定为
input_audio_buffer.committed。string
body
上一个对话项的 ID。
string
body
即将创建的用户对话项 ID。
conversation.item.created
对话项创建时发送。
Example
string
body
事件的唯一标识符。
string
body
事件类型,固定为
conversation.item.created。string
body
上一个对话项的 ID。
object
body
对话项。
conversation.item.input_audio_transcription.text
高频发送,包含实时识别结果。
Example
string
body
事件的唯一标识符。
string
body
事件类型,固定为
conversation.item.input_audio_transcription.text。string
body
关联的对话项 ID。
integer
body
包含音频的 content 部分的索引。
string
body
检测到的语言。如果您设置了
language 请求参数,此值与该设置一致。可选值:zh:中文(普通话、四川话、闽南语、吴语)yue:粤语en:英语ja:日语de:德语ko:韩语ru:俄语fr:法语pt:葡萄牙语ar:阿拉伯语it:意大利语es:西班牙语hi:印地语id:印尼语th:泰语tr:土耳其语uk:乌克兰语vi:越南语cs:捷克语da:丹麦语fil:菲律宾语fi:芬兰语is:冰岛语ms:马来语no:挪威语pl:波兰语sv:瑞典语
string
body
检测到的情绪。可选值:
surprised、neutral、happy、sad、disgusted、angry、fearful。string
body
已确认的文本前缀。模型已完成对这部分内容的识别,不会再修改。
string
body
预识别的文本后缀。跟在已确认部分之后的临时草稿,模型可能会修正。
拼接
text + stash 可获得最完整的实时预览。conversation.item.input_audio_transcription.completed
发送最终识别结果,标志着一个对话项的结束。
Example
string
body
事件的唯一标识符。
string
body
事件类型,固定为
conversation.item.input_audio_transcription.completed。string
body
关联的对话项 ID。
integer
body
包含音频的 content 部分的索引。
string
body
检测到的语言。如果您设置了
language 请求参数,此值与该设置一致。可选值:zh:中文(普通话、四川话、闽南语、吴语)yue:粤语en:英语ja:日语de:德语ko:韩语ru:俄语fr:法语pt:葡萄牙语ar:阿拉伯语it:意大利语es:西班牙语hi:印地语id:印尼语th:泰语tr:土耳其语uk:乌克兰语vi:越南语cs:捷克语da:丹麦语fil:菲律宾语fi:芬兰语is:冰岛语ms:马来语no:挪威语pl:波兰语sv:瑞典语
string
body
检测到的情绪。可选值:
surprised、neutral、happy、sad、disgusted、angry、fearful。string
body
转写结果。
conversation.item.input_audio_transcription.failed
输入音频识别失败时发送。该事件独立于其他 error 事件,便于定位失败的具体项。
Example
string
body
事件的唯一标识符。
string
body
事件类型,固定为
conversation.item.input_audio_transcription.failed。string
body
关联的对话项 ID。
integer
body
包含音频的 content 部分的索引。
object
body
错误详情。
session.finished
确认所有识别已完成。在您发送 session.finish 后返回。收到此事件后即可断开连接。
Example
string
body
事件的唯一标识符。
string
body
事件类型,固定为
session.finished。
