选择适合实时字幕、音频转写等场景的语音识别模型。
千问云提供四大技术系列的语音识别模型。两个问题即可缩小选择范围:
基于 WebSocket,音频流式输入,文本流式输出。适用于实时字幕、语音助手和会议转写。实时模型的 ID 以
提交音频文件,轮询获取结果。支持最长 12 小时、最大 2 GB 的录音。离线模型的 ID 不含
离线 API 也可接收短音频。将音频切成 5 秒片段逐一提交,即可获得接近实时的效果,无需 WebSocket。但真正的 WebSocket 连接可避免重复建连开销。如果对延迟敏感,建议使用实时模型。
两种方式,按灵活度排序:
仅
- 需要实时出字,还是录音结束后再转写?
- 音频中是否包含专业术语?
实时还是离线?
实时
基于 WebSocket,音频流式输入,文本流式输出。适用于实时字幕、语音助手和会议转写。实时模型的 ID 以 -realtime 结尾。
- Fun-ASR(
fun-asr-realtime)— 支持热词、VAD 和方言 - Qwen3-ASR(
qwen3-asr-flash-realtime)— 转写同时识别情绪 - Qwen-Omni(
qwen3.5-omni-plus-realtime)— 覆盖 113 种语言/方言,支持 prompt 上下文,单次会话最长 120 分钟
离线
提交音频文件,轮询获取结果。支持最长 12 小时、最大 2 GB 的录音。离线模型的 ID 不含 -realtime 后缀。
- Fun-ASR(
fun-asr)— 说话人分离、热词和歌曲识别 - Qwen3-ASR(
qwen3-asr-flash-filetrans)— 情绪识别 - Qwen-Omni(
qwen3.5-omni-flash)— 多语言、prompt 上下文、兼容 OpenAI HTTP 接口
准实时方案
离线 API 也可接收短音频。将音频切成 5 秒片段逐一提交,即可获得接近实时的效果,无需 WebSocket。但真正的 WebSocket 连接可避免重复建连开销。如果对延迟敏感,建议使用实时模型。
处理专业术语
两种方式,按灵活度排序:
- Prompt 上下文(Qwen-Omni)— 在 system prompt 中描述领域背景,无需预配置,模型每次请求自适应。代价:单次请求延迟高于专用 ASR 模型。
- 热词(Fun-ASR)— 提供带权重的词表,适合词表稳定、变动少的场景。
Qwen-Omni 不是传统 ASR,而是具有音频理解能力的大语言模型。通过 prompt 注入上下文即可让模型自适应,无需配置热词表。
说话人分离
仅 fun-asr(离线)支持说话人分离。如需区分「谁说了什么」,请使用该模型。
情绪识别
qwen3-asr-flash-realtime、qwen3-asr-flash-filetrans 及 Qwen-Omni 系列模型在转写的同时可识别情绪。传统 ASR 模型不支持该功能。
推荐模型
| 模型 | 模式 | 精度增强 | 情绪识别 | 说话人分离 | 语言 |
|---|---|---|---|---|---|
fun-asr-realtime | 实时 | 热词 | -- | -- | 中、英、日、方言 |
fun-asr | 离线 | 热词 | -- | ✓ | 中、英、日、韩等 30 余种 |
qwen3-asr-flash-realtime | 实时 | -- | ✓ | -- | 26 种语言 |
qwen3.5-omni-plus-realtime | 实时 | Prompt 上下文 | ✓ | -- | 113 种语言/方言 |
qwen3.5-omni-flash | 离线 | Prompt 上下文 | ✓ | -- | 113 种语言/方言 |
全部模型
Fun-ASR
Fun-ASR
| 模型 | 模式 | API | 精度增强 | 情绪识别 | 说话人分离 | 语言 | 最大时长 |
|---|---|---|---|---|---|---|---|
fun-asr-realtime | 实时 | WebSocket | 热词 | ✗ | ✗ | 中、英、日、方言 | 流式 |
fun-asr-realtime-2026-02-28 | 实时 | WebSocket | 热词 | ✗ | ✗ | 中、英、日、方言 | 流式 |
fun-asr-realtime-2025-11-07 | 实时 | WebSocket | 热词 | ✗ | ✗ | 中、英、日、方言 | 流式 |
fun-asr-realtime-2025-09-15 | 实时 | WebSocket | 热词 | ✗ | ✗ | 中、英 | 流式 |
fun-asr-mtl-realtime | 实时 | WebSocket | 热词 | ✗ | ✗ | 中、英、日、韩等 8 种 | 流式 |
fun-asr-mtl-realtime-2025-12-10 | 实时 | WebSocket | 热词 | ✗ | ✗ | 中、英、日、韩等 8 种 | 流式 |
fun-asr-flash-8k-realtime | 实时 | WebSocket | 热词 | ✗ | ✗ | 中 | 流式 |
fun-asr-flash-8k-realtime-2026-01-28 | 实时 | WebSocket | 热词 | ✗ | ✗ | 中 | 流式 |
fun-asr | 离线 | 异步 REST | 热词 | ✗ | ✓ | 中、英、日、韩等 30 余种 | 12 小时 / 2 GB |
fun-asr-2025-11-07 | 离线 | 异步 REST | 热词 | ✗ | ✓ | 中、英、日、韩等 30 余种 | 12 小时 / 2 GB |
fun-asr-2025-08-25 | 离线 | 异步 REST | 热词 | ✗ | ✓ | 中、英 | 12 小时 / 2 GB |
fun-asr-mtl | 离线 | 异步 REST | 热词 | ✗ | ✓ | 中、英、日、韩等 31 种 | 12 小时 / 2 GB |
fun-asr-mtl-2025-08-25 | 离线 | 异步 REST | 热词 | ✗ | ✓ | 中、英、日、韩等 31 种 | 12 小时 / 2 GB |
Qwen3-ASR
Qwen3-ASR
| 模型 | 模式 | API | 精度增强 | 情绪识别 | 说话人分离 | 语言 | 最大时长 |
|---|---|---|---|---|---|---|---|
qwen3-asr-flash-realtime | 实时 | WebSocket | -- | ✓ | ✗ | 26 种语言 | 流式 |
qwen3-asr-flash-realtime-2026-02-10 | 实时 | WebSocket | -- | ✓ | ✗ | 26 种语言 | 流式 |
qwen3-asr-flash-realtime-2025-10-27 | 实时 | WebSocket | -- | ✓ | ✗ | 26 种语言 | 流式 |
qwen3-asr-flash-filetrans | 离线 | 异步 REST | -- | ✓ | ✗ | 26 种语言 | -- |
qwen3-asr-flash-filetrans-2025-11-17 | 离线 | 异步 REST | -- | ✓ | ✗ | 26 种语言 | -- |
qwen3-asr-flash | 离线 | 异步 REST | -- | ✓ | ✗ | 26 种语言 | -- |
qwen3-asr-flash-2026-02-10 | 离线 | 异步 REST | -- | ✓ | ✗ | 26 种语言 | -- |
qwen3-asr-flash-2025-09-08 | 离线 | 异步 REST | -- | ✓ | ✗ | 26 种语言 | -- |
Qwen-Omni
Qwen-Omni
| 模型 | 模式 | API | 精度增强 | 情绪识别 | 说话人分离 | 语言 | 最大时长 |
|---|---|---|---|---|---|---|---|
qwen3.5-omni-plus | 离线 | HTTP (OpenAI) | Prompt 上下文 | ✓ | ✗ | 113 种语言/方言 | 单次请求限制 |
qwen3.5-omni-plus-2026-03-15 | 离线 | HTTP (OpenAI) | Prompt 上下文 | ✓ | ✗ | 113 种语言/方言 | 单次请求限制 |
qwen3.5-omni-flash | 离线 | HTTP (OpenAI) | Prompt 上下文 | ✓ | ✗ | 113 种语言/方言 | 单次请求限制 |
qwen3.5-omni-flash-2026-03-15 | 离线 | HTTP (OpenAI) | Prompt 上下文 | ✓ | ✗ | 113 种语言/方言 | 单次请求限制 |
qwen3.5-omni-plus-realtime | 实时 | WebSocket | Prompt 上下文 | ✓ | ✗ | 113 种语言/方言 | 120 分钟 |
qwen3.5-omni-plus-realtime-2026-03-15 | 实时 | WebSocket | Prompt 上下文 | ✓ | ✗ | 113 种语言/方言 | 120 分钟 |
qwen3.5-omni-flash-realtime | 实时 | WebSocket | Prompt 上下文 | ✓ | ✗ | 113 种语言/方言 | 120 分钟 |
qwen3.5-omni-flash-realtime-2026-03-15 | 实时 | WebSocket | Prompt 上下文 | ✓ | ✗ | 113 种语言/方言 | 120 分钟 |
qwen3-omni-flash | 离线 | HTTP (OpenAI) | Prompt 上下文 | ✓ | ✗ | 19 种语言/方言 | 单次请求限制 |
qwen3-omni-flash-2025-12-01 | 离线 | HTTP (OpenAI) | Prompt 上下文 | ✓ | ✗ | 19 种语言/方言 | 单次请求限制 |
qwen3-omni-flash-2025-09-15 | 离线 | HTTP (OpenAI) | Prompt 上下文 | ✓ | ✗ | 19 种语言/方言 | 单次请求限制 |
qwen3-omni-flash-realtime | 实时 | WebSocket | Prompt 上下文 | ✓ | ✗ | 19 种语言/方言 | 120 分钟 |
qwen3-omni-flash-realtime-2025-12-01 | 实时 | WebSocket | Prompt 上下文 | ✓ | ✗ | 19 种语言/方言 | 120 分钟 |
qwen3-omni-flash-realtime-2025-09-15 | 实时 | WebSocket | Prompt 上下文 | ✓ | ✗ | 19 种语言/方言 | 120 分钟 |
Paraformer
Paraformer
| 模型 | 模式 | API | 精度增强 | 情绪识别 | 说话人分离 | 语言 | 最大时长 |
|---|---|---|---|---|---|---|---|
paraformer-v2 | 离线 | 异步 REST | 热词 | ✗ | ✗ | 中、英、日、韩、德、法、俄 | -- |
paraformer-8k-v2 | 离线 | 异步 REST | 热词 | ✗ | ✗ | 中 | -- |
paraformer-v1 | 离线 | 异步 REST | 热词 | ✗ | ✗ | 中、英 | -- |
paraformer-8k-v1 | 离线 | 异步 REST | 热词 | ✗ | ✗ | 中 | -- |
paraformer-mtl-v1 | 离线 | 异步 REST | 热词 | ✗ | ✗ | 中、英、日、韩等 10 种 | -- |
paraformer-realtime-v2 | 实时 | WebSocket | 热词 | ✗ | ✗ | 中、英、日、韩、德、法、俄 | 流式 |
paraformer-realtime-v1 | 实时 | WebSocket | 热词 | ✗ | ✗ | 中 | 流式 |
paraformer-realtime-8k-v2 | 实时 | WebSocket | 热词 | ✗ | ✗ | 中 | 流式 |
paraformer-realtime-8k-v1 | 实时 | WebSocket | 热词 | ✗ | ✗ | 中 | 流式 |
所有模型均支持 WAV、MP3、AAC 等音频格式。
需要将语音翻译为其他语言?请参阅语音翻译模型,了解 LiveTranslate 和 Qwen-Omni 的实时与文件翻译能力。

