跳转到主要内容
语音识别

语音识别模型

选择适合实时字幕、音频转写等场景的语音识别模型。

千问云提供四大技术系列的语音识别模型。两个问题即可缩小选择范围:
  1. 需要实时出字,还是录音结束后再转写?
  2. 音频中是否包含专业术语?

实时还是离线?

实时

基于 WebSocket,音频流式输入,文本流式输出。适用于实时字幕、语音助手和会议转写。实时模型的 ID 以 -realtime 结尾。
  • Fun-ASRfun-asr-realtime)— 支持热词、VAD 和方言
  • Qwen3-ASRqwen3-asr-flash-realtime)— 转写同时识别情绪
  • Qwen-Omniqwen3.5-omni-plus-realtime)— 覆盖 113 种语言/方言,支持 prompt 上下文,单次会话最长 120 分钟

离线

提交音频文件,轮询获取结果。支持最长 12 小时、最大 2 GB 的录音。离线模型的 ID 不含 -realtime 后缀。
  • Fun-ASRfun-asr)— 说话人分离、热词和歌曲识别
  • Qwen3-ASRqwen3-asr-flash-filetrans)— 情绪识别
  • Qwen-Omniqwen3.5-omni-flash)— 多语言、prompt 上下文、兼容 OpenAI HTTP 接口

准实时方案

离线 API 也可接收短音频。将音频切成 5 秒片段逐一提交,即可获得接近实时的效果,无需 WebSocket。但真正的 WebSocket 连接可避免重复建连开销。如果对延迟敏感,建议使用实时模型。

处理专业术语

两种方式,按灵活度排序:
  1. Prompt 上下文(Qwen-Omni)— 在 system prompt 中描述领域背景,无需预配置,模型每次请求自适应。代价:单次请求延迟高于专用 ASR 模型。
  2. 热词(Fun-ASR)— 提供带权重的词表,适合词表稳定、变动少的场景。
Qwen-Omni 不是传统 ASR,而是具有音频理解能力的大语言模型。通过 prompt 注入上下文即可让模型自适应,无需配置热词表。

说话人分离

fun-asr(离线)支持说话人分离。如需区分「谁说了什么」,请使用该模型。

情绪识别

qwen3-asr-flash-realtimeqwen3-asr-flash-filetrans 及 Qwen-Omni 系列模型在转写的同时可识别情绪。传统 ASR 模型不支持该功能。

推荐模型

模型模式精度增强情绪识别说话人分离语言
fun-asr-realtime实时热词----中、英、日、方言
fun-asr离线热词--中、英、日、韩等 30 余种
qwen3-asr-flash-realtime实时----26 种语言
qwen3.5-omni-plus-realtime实时Prompt 上下文--113 种语言/方言
qwen3.5-omni-flash离线Prompt 上下文--113 种语言/方言

全部模型

模型模式API精度增强情绪识别说话人分离语言最大时长
fun-asr-realtime实时WebSocket热词中、英、日、方言流式
fun-asr-realtime-2026-02-28实时WebSocket热词中、英、日、方言流式
fun-asr-realtime-2025-11-07实时WebSocket热词中、英、日、方言流式
fun-asr-realtime-2025-09-15实时WebSocket热词中、英流式
fun-asr-mtl-realtime实时WebSocket热词中、英、日、韩等 8 种流式
fun-asr-mtl-realtime-2025-12-10实时WebSocket热词中、英、日、韩等 8 种流式
fun-asr-flash-8k-realtime实时WebSocket热词流式
fun-asr-flash-8k-realtime-2026-01-28实时WebSocket热词流式
fun-asr离线异步 REST热词中、英、日、韩等 30 余种12 小时 / 2 GB
fun-asr-2025-11-07离线异步 REST热词中、英、日、韩等 30 余种12 小时 / 2 GB
fun-asr-2025-08-25离线异步 REST热词中、英12 小时 / 2 GB
fun-asr-mtl离线异步 REST热词中、英、日、韩等 31 种12 小时 / 2 GB
fun-asr-mtl-2025-08-25离线异步 REST热词中、英、日、韩等 31 种12 小时 / 2 GB
模型模式API精度增强情绪识别说话人分离语言最大时长
qwen3-asr-flash-realtime实时WebSocket--26 种语言流式
qwen3-asr-flash-realtime-2026-02-10实时WebSocket--26 种语言流式
qwen3-asr-flash-realtime-2025-10-27实时WebSocket--26 种语言流式
qwen3-asr-flash-filetrans离线异步 REST--26 种语言--
qwen3-asr-flash-filetrans-2025-11-17离线异步 REST--26 种语言--
qwen3-asr-flash离线异步 REST--26 种语言--
qwen3-asr-flash-2026-02-10离线异步 REST--26 种语言--
qwen3-asr-flash-2025-09-08离线异步 REST--26 种语言--
模型模式API精度增强情绪识别说话人分离语言最大时长
qwen3.5-omni-plus离线HTTP (OpenAI)Prompt 上下文113 种语言/方言单次请求限制
qwen3.5-omni-plus-2026-03-15离线HTTP (OpenAI)Prompt 上下文113 种语言/方言单次请求限制
qwen3.5-omni-flash离线HTTP (OpenAI)Prompt 上下文113 种语言/方言单次请求限制
qwen3.5-omni-flash-2026-03-15离线HTTP (OpenAI)Prompt 上下文113 种语言/方言单次请求限制
qwen3.5-omni-plus-realtime实时WebSocketPrompt 上下文113 种语言/方言120 分钟
qwen3.5-omni-plus-realtime-2026-03-15实时WebSocketPrompt 上下文113 种语言/方言120 分钟
qwen3.5-omni-flash-realtime实时WebSocketPrompt 上下文113 种语言/方言120 分钟
qwen3.5-omni-flash-realtime-2026-03-15实时WebSocketPrompt 上下文113 种语言/方言120 分钟
qwen3-omni-flash离线HTTP (OpenAI)Prompt 上下文19 种语言/方言单次请求限制
qwen3-omni-flash-2025-12-01离线HTTP (OpenAI)Prompt 上下文19 种语言/方言单次请求限制
qwen3-omni-flash-2025-09-15离线HTTP (OpenAI)Prompt 上下文19 种语言/方言单次请求限制
qwen3-omni-flash-realtime实时WebSocketPrompt 上下文19 种语言/方言120 分钟
qwen3-omni-flash-realtime-2025-12-01实时WebSocketPrompt 上下文19 种语言/方言120 分钟
qwen3-omni-flash-realtime-2025-09-15实时WebSocketPrompt 上下文19 种语言/方言120 分钟
模型模式API精度增强情绪识别说话人分离语言最大时长
paraformer-v2离线异步 REST热词中、英、日、韩、德、法、俄--
paraformer-8k-v2离线异步 REST热词--
paraformer-v1离线异步 REST热词中、英--
paraformer-8k-v1离线异步 REST热词--
paraformer-mtl-v1离线异步 REST热词中、英、日、韩等 10 种--
paraformer-realtime-v2实时WebSocket热词中、英、日、韩、德、法、俄流式
paraformer-realtime-v1实时WebSocket热词流式
paraformer-realtime-8k-v2实时WebSocket热词流式
paraformer-realtime-8k-v1实时WebSocket热词流式
所有模型均支持 WAV、MP3、AAC 等音频格式。
需要将语音翻译为其他语言?请参阅语音翻译模型,了解 LiveTranslate 和 Qwen-Omni 的实时与文件翻译能力。

了解更多