支持18种语言翻译
模型信息
| 模型 | 版本 | 上下文窗口 | 最大输入 | 最大输出 |
|---|---|---|---|---|
| qwen3-livetranslate-flash | 稳定版 | 53,248 tokens | 49,152 tokens | 4,096 tokens |
| qwen3-livetranslate-flash-2025-12-01 | 快照版 | 53,248 tokens | 49,152 tokens | 4,096 tokens |
qwen3-livetranslate-flash 当前与 qwen3-livetranslate-flash-2025-12-01 的能力一致。
快速开始
前提条件
- 获取 API Key。
- 将其设置为环境变量。
- (可选)如果使用 OpenAI SDK,请安装 SDK。
translation_options 设置源语言和目标语言。默认输入为音频。如需翻译视频文件,取消注释各示例中的视频输入代码块即可。
指定
source_lang 可提升翻译准确率。省略该参数则自动检测语言。- Python
- Node.js
- curl
发送 Base64 编码的本地文件
要翻译本地音频文件,需先将文件读取并编码为 Base64。以 data URI 格式传递数据:data:audio/<format>;base64,<base64_data>(例如 data:audio/wav;base64,UklGRiQAAABXQVZFZm10...)。
支持的音频格式:WAV、MP3、FLAC、AAC、OGG、OPUS、M4A、WMA、AMR。采样率:8kHz-48kHz。
- Python
- Node.js
- curl
请求参数
输入
messages 数组只能包含一条 role 为 user 的消息。content 字段用于传入待翻译的音频或视频:
- 音频:将
type设为input_audio。在input_audio.data中提供文件 URL 或 data URI(例如data:audio/wav;base64,<base64_data>),在input_audio.format中指定格式(例如wav)。详见发送 Base64 编码的本地文件。 - 视频:将
type设为video_url。在video_url.url中提供文件 URL。
翻译选项
通过 translation_options 参数指定源语言和目标语言:
translation_options 不是 OpenAI 标准参数,需通过 extra_body 传递:
输出模态
通过 modalities 参数控制输出格式:
modalities 值 | 输出 |
|---|---|
["text"] | 仅翻译文本 |
["text", "audio"] | 翻译文本和 Base64 编码的合成音频 |
audio 参数设置语音。可选语音见支持的语音。
使用限制
- 仅支持单轮:模型每次请求处理一条翻译,不支持多轮对话。
- 不支持 system 消息:不支持
system角色。 - 流式与非流式:支持
stream: true和stream: false。 - 输出音频格式:音频输出仅支持
wav格式。 - 采样参数默认值:默认采样参数(
temperature、top_p、top_k、presence_penalty、repetition_penalty)已针对翻译准确率调优,修改可能导致输出质量下降。
解析响应
每个流式 chunk 对象包含:
- 文本:
chunk.choices[0].delta.content - 音频:
chunk.choices[0].delta.audio["data"](Base64 编码,24 kHz 采样率)
保存音频到文件
将流中的所有 Base64 音频片段拼接起来,待流结束后解码并保存。
- Python
- Node.js
实时播放
逐个解码收到的 Base64 音频片段并直接播放。此方式需要依赖特定平台的音频库。
- Python
- Node.js
先安装
pyaudio:| 平台 | 安装命令 |
|---|---|
| macOS | brew install portaudio && pip install pyaudio |
| Ubuntu / Debian | sudo apt-get install python-pyaudio python3-pyaudio 或 pip install pyaudio |
| CentOS | sudo yum install -y portaudio portaudio-devel && pip install pyaudio |
| Windows | python -m pip install pyaudio |
计费
- 音频
- 视频
音频 Token 消耗取决于音频特征(如采样率)。如需查看实际 Token 用量,将
stream_options.include_usage 设为 true,然后查看响应中的 usage 字段。不足 1 秒的音频按 1 秒计费。
支持的语言
以下语言代码可用于设置源语言和目标语言。部分目标语言仅支持文本输出。
| 语言代码 | 语言 | 支持的输出 |
|---|---|---|
| en | 英语 | 音频、文本 |
| zh | 中文 | 音频、文本 |
| ru | 俄语 | 音频、文本 |
| fr | 法语 | 音频、文本 |
| de | 德语 | 音频、文本 |
| pt | 葡萄牙语 | 音频、文本 |
| es | 西班牙语 | 音频、文本 |
| it | 意大利语 | 音频、文本 |
| id | 印尼语 | 文本 |
| ko | 韩语 | 音频、文本 |
| ja | 日语 | 音频、文本 |
| vi | 越南语 | 文本 |
| th | 泰语 | 文本 |
| ar | 阿拉伯语 | 文本 |
| yue | 粤语 | 音频、文本 |
| hi | 印地语 | 文本 |
| el | 希腊语 | 文本 |
| tr | 土耳其语 | 文本 |
支持的语音
输出包含合成音频时,需设置 voice 参数。
| 语音名称 | voice 参数 | 描述 | 支持的语言 |
|---|---|---|---|
| Cherry | Cherry | 开朗、友好、真诚的年轻女性。 | 中文、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 |
| Ethan | Ethan | 标准普通话,略带北方口音。阳光、温暖、充满活力。 | 中文、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 |
| Nofish | Nofish | 一位平翘舌不分的设计师。 | 中文、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语 |
| Shanghai-Jada | Jada | 风风火火的上海女人。 | 中文 |
| Beijing-Dylan | Dylan | 在北京胡同里长大的小伙子。 | 中文 |
| Sichuan-Sunny | Sunny | 来自四川的甜美女孩。 | 中文 |
| Tianjin-Peter | Peter | 天津相声演员风格(捧哏)。 | 中文 |
| Cantonese-Kiki | Kiki | 来自香港的甜美闺蜜。 | 粤语 |
| Sichuan-Eric | Eric | 来自四川成都、特立独行的男性。 | 中文 |
替代方案:使用 Qwen-Omni
也可以使用 Qwen-Omni(qwen3-omni-flash)配合翻译提示词来翻译音视频文件。
Qwen-Omni 的完整能力(包括多模态对话)详见音视频文件理解。
常见问题
输入视频文件时,翻译的是什么内容?
模型翻译的是视频中的音频轨道。视觉信息作为上下文参考,用于提升翻译准确率。
例如,音频内容为「This is a mask」时:
- 如果视频画面是医用口罩,模型会翻译为「这是一个医用口罩」。
- 如果视频画面是化装舞会面具,模型会翻译为「这是一个化装舞会面具」。

