跳转到主要内容
Qwen-Livetranslate

音视频翻译

LiveTranslate API 参考

通过 OpenAI 兼容的 chat completions 端点翻译音视频内容,支持流式和非流式调用。 用户指南: 教程和完整示例请参见音视频翻译
不支持 DashScope 接口。

端点

SDK base_urlHTTP 端点
https://dashscope.aliyuncs.com/compatible-mode/v1POST https://dashscope.aliyuncs.com/compatible-mode/v1/chat/completions

请求体

必选参数

参数类型说明
modelstring模型名称:qwen3-livetranslate-flashqwen3-livetranslate-flash-2025-12-01
messagesarray单条用户消息。参见 Message 对象
streamboolean是否启用流式输出。设为 true 可实时获取翻译进度,设为 false 则集成更简单。
translation_optionsobject翻译设置。非标准 OpenAI 参数:Python SDK 中通过 extra_body 传入,Node.js/HTTP 中直接放在顶层。参见翻译选项

可选参数

参数类型默认值说明
modalitiesarray["text"]输出模式。["text", "audio"] 表示同时输出文本和音频,["text"] 仅输出文本。
audioobject-音频输出设置。modalities 包含 "audio" 时必填。参见音频输出选项
stream_optionsobject-流式输出设置。参见流式输出选项
max_tokensinteger模型最大值最大生成 token 数。超出则截断输出。
seedinteger-随机种子,用于生成可复现的输出。取值范围:[0, 2^31-1]

采样参数

建议保持默认值以获得最佳翻译效果。
参数类型默认值取值范围说明
temperaturefloat0.000001[0, 2)控制输出多样性。
top_pfloat0.8(0, 1.0]核采样阈值。
presence_penaltyfloat0[-2.0, 2.0]正值时减少重复。
top_kinteger1>= 0候选集大小。为 None 或大于 100 时禁用(由 top_p 生效)。非标准 OpenAI 参数:Python SDK 中通过 extra_body 传入。
repetition_penaltyfloat1.05> 0惩罚重复序列。非标准 OpenAI 参数:Python SDK 中通过 extra_body 传入。

Message 对象

messages 数组必须且只能包含一条用户消息。 content 数组元素
字段类型必选说明
typestring音频输入为 input_audio,视频输入为 video_url
input_audioobjecttypeinput_audio 时必填音频输入。见下文。
video_urlobjecttypevideo_url 时必填视频输入。见下文。
input_audio 对象
字段类型必选说明
datastring音频文件 URL 或 Base64 data URL。本地文件请参见发送 Base64 编码的本地文件
formatstring音频格式,如 mp3wav
video_url 对象
字段类型必选说明
urlstring公开可访问的视频 URL 或 Base64 data URL。本地文件请参见发送 Base64 编码的本地文件

翻译选项

字段类型必选说明
source_langstring源语言(语言代码)。参见支持的语言。省略时由模型自动检测。
target_langstring目标语言(语言代码)。参见支持的语言
extra_body={"translation_options": {"source_lang": "zh", "target_lang": "en"}}

音频输出选项

modalities["text", "audio"] 时必填。
字段类型必选说明
voicestring输出语音。
formatstring输出音频格式。仅支持 wav

流式输出选项

字段类型默认值说明
include_usagebooleanfalse设为 true 时,最后一个 chunk 包含 token 用量详情。

响应

API 以流式方式返回 chat.completion.chunk 对象,分为三类:文本、音频和 token 用量。

文本 chunk

choices[0].delta.content 中包含增量翻译文本:
{
  "id": "chatcmpl-c22a54b8-40cc-4a1d-988b-f84cdf86868f",
  "choices": [
    {
      "delta": {
        "content": " of",
        "role": null,
        "audio": null
      },
      "finish_reason": null,
      "index": 0
    }
  ],
  "created": 1764755440,
  "model": "qwen3-livetranslate-flash",
  "object": "chat.completion.chunk"
}

音频 chunk

choices[0].delta.audio.data 中包含增量 Base64 编码的音频数据:
{
  "id": "chatcmpl-c22a54b8-40cc-4a1d-988b-f84cdf86868f",
  "choices": [
    {
      "delta": {
        "content": null,
        "role": null,
        "audio": {
          "data": "///+//7////+////////////AAAAAAAAAAABA......",
          "expires_at": 1764755440,
          "id": "audio_c22a54b8-40cc-4a1d-988b-f84cdf86868f"
        }
      },
      "finish_reason": null,
      "index": 0
    }
  ],
  "created": 1764755440,
  "model": "qwen3-livetranslate-flash",
  "object": "chat.completion.chunk"
}

Token 用量 chunk

include_usagetrue 时最后发送。choices 数组为空,usage 包含 token 分项详情:
{
  "id": "chatcmpl-c22a54b8-40cc-4a1d-988b-f84cdf86868f",
  "choices": [],
  "created": 1764755440,
  "model": "qwen3-livetranslate-flash",
  "object": "chat.completion.chunk",
  "usage": {
    "completion_tokens": 242,
    "prompt_tokens": 415,
    "total_tokens": 657,
    "completion_tokens_details": {
      "accepted_prediction_tokens": null,
      "audio_tokens": 191,
      "reasoning_tokens": null,
      "rejected_prediction_tokens": null,
      "text_tokens": 51
    },
    "prompt_tokens_details": {
      "audio_tokens": 415,
      "cached_tokens": null,
      "text_tokens": 0,
      "video_tokens": null
    }
  }
}
视频输入时,prompt_tokens_details.audio_tokens 包含视频中的音频 token。video_tokens 报告视频专属的 token 数量。

响应字段

字段类型说明
idstring请求标识符。所有 chunk 共享同一 ID。
choicesarray生成内容。在最后的用量 chunk 中为空。
choices[].delta.contentstring增量翻译文本。音频 chunk 中为 null
choices[].delta.audioobject增量音频数据。文本 chunk 中为 null
choices[].delta.audio.datastringBase64 编码的音频片段。
choices[].delta.audio.idstring输出音频标识符。
choices[].delta.audio.expires_atinteger请求创建时的时间戳。
choices[].delta.rolestring消息角色。仅在第一个 chunk 中出现。
choices[].finish_reasonstring完成时为 stop,因 max_tokens 截断时为 length,进行中为 null
choices[].indexinteger固定为 0
createdinteger请求的 Unix 时间戳。所有 chunk 共享同一值。
modelstring使用的模型。
objectstring固定为 chat.completion.chunk
usageobjectToken 用量。仅在 include_usagetrue 时出现在最后一个 chunk 中。
usage.prompt_tokensinteger输入 token 总数。
usage.completion_tokensinteger输出 token 总数。
usage.total_tokensintegerprompt_tokenscompletion_tokens 之和。
usage.completion_tokens_details.audio_tokensinteger输出音频 token 数。
usage.completion_tokens_details.text_tokensinteger输出文本 token 数。
usage.prompt_tokens_details.audio_tokensinteger输入音频 token 数。视频输入时包含视频中的音频 token。
usage.prompt_tokens_details.text_tokensinteger输入文本 token 数。固定为 0
usage.prompt_tokens_details.video_tokensinteger输入视频 token 数。仅视频输入时出现。

固定为 null 的字段

以下字段为兼容 OpenAI 格式而存在,始终返回 null reasoning_contentfunction_callrefusaltool_callslogprobsservice_tiersystem_fingerprint

参考