语音识别模型

从闭源模型迁移到千问云？

如果你正在使用 Whisper、Deepgram 或 Google 的语音识别服务，可参考下表选择对应的千问云模型。

使用场景	闭源模型代表	千问云推荐
实时识别	Deepgram Nova-3、Google Chirp 3	`fun-asr-realtime`、`qwen3.5-omni-plus-realtime`
非实时 / 文件转写	OpenAI gpt-4o-transcribe、Whisper	`fun-asr`、`qwen3.5-omni-plus`

千问云提供四大技术系列的语音识别模型。两个问题即可缩小选择范围：

需要实时出字，还是录音结束后再转写？
音频中是否包含专业术语？

实时还是离线？

实时

基于 WebSocket，音频流式输入，文本流式输出。适用于实时字幕、语音助手和会议转写。实时模型的 ID 以 -realtime 结尾。

Fun-ASR（fun-asr-realtime）— 支持热词、VAD 和方言
Qwen3-ASR（qwen3-asr-flash-realtime）— 转写同时识别情绪
Qwen-Omni（qwen3.5-omni-plus-realtime）— 覆盖 113 种语言/方言，支持 prompt 上下文，单次会话最长 120 分钟

离线

提交音频文件，轮询获取结果。支持最长 12 小时、最大 2 GB 的录音。离线模型的 ID 不含 -realtime 后缀。

Fun-ASR（fun-asr）— 说话人分离、热词和歌曲识别
Qwen3-ASR（qwen3-asr-flash-filetrans）— 情绪识别
Qwen-Omni（qwen3.5-omni-flash）— 多语言、prompt 上下文、兼容 OpenAI HTTP 接口

准实时方案

离线 API 也可接收短音频。将音频切成 5 秒片段逐一提交，即可获得接近实时的效果，无需 WebSocket。但真正的 WebSocket 连接可避免重复建连开销。如果对延迟敏感，建议使用实时模型。

处理专业术语

两种方式，按灵活度排序：

Prompt 上下文（Qwen-Omni）— 在 system prompt 中描述领域背景，无需预配置，模型每次请求自适应。代价：单次请求延迟高于专用 ASR 模型。
热词（Fun-ASR）— 提供带权重的词表，适合词表稳定、变动少的场景。

Qwen-Omni 不是传统 ASR，而是具有音频理解能力的大语言模型。通过 prompt 注入上下文即可让模型自适应，无需配置热词表。

说话人分离

仅 fun-asr（离线）支持说话人分离。如需区分「谁说了什么」，请使用该模型。

情绪识别

qwen3-asr-flash-realtime、qwen3-asr-flash-filetrans 及 Qwen-Omni 系列模型在转写的同时可识别情绪。传统 ASR 模型不支持该功能。

模型ID	模式	精度增强	情绪识别	说话人分离	语言
`fun-asr-realtime`	实时	热词	--	--	中、英、日、方言
`fun-asr`	离线	热词	--	✓	中、英、日、韩等 30 余种
`qwen3-asr-flash-realtime`	实时	--	✓	--	26 种语言
`qwen3.5-omni-plus-realtime`	实时	Prompt 上下文	✓	--	113 种语言/方言
`qwen3.5-omni-flash`	离线	Prompt 上下文	✓	--	113 种语言/方言

全部模型

Fun-ASR

模型ID	模式	API	精度增强	情绪识别	说话人分离	语言	最大时长
`fun-asr-realtime`	实时	WebSocket	热词	✗	✗	中、英、日、方言	流式
`fun-asr-realtime-2026-02-28`	实时	WebSocket	热词	✗	✗	中、英、日、方言	流式
`fun-asr-realtime-2025-11-07`	实时	WebSocket	热词	✗	✗	中、英、日、方言	流式
`fun-asr-realtime-2025-09-15`	实时	WebSocket	热词	✗	✗	中、英	流式
`fun-asr-mtl-realtime`	实时	WebSocket	热词	✗	✗	中、英、日、韩等 8 种	流式
`fun-asr-mtl-realtime-2025-12-10`	实时	WebSocket	热词	✗	✗	中、英、日、韩等 8 种	流式
`fun-asr-flash-8k-realtime`	实时	WebSocket	热词	✗	✗	中	流式
`fun-asr-flash-8k-realtime-2026-01-28`	实时	WebSocket	热词	✗	✗	中	流式
`fun-asr`	离线	异步 REST	热词	✗	✓	中、英、日、韩等 30 余种	12 小时 / 2 GB
`fun-asr-2025-11-07`	离线	异步 REST	热词	✗	✓	中、英、日、韩等 30 余种	12 小时 / 2 GB
`fun-asr-2025-08-25`	离线	异步 REST	热词	✗	✓	中、英	12 小时 / 2 GB
`fun-asr-mtl`	离线	异步 REST	热词	✗	✓	中、英、日、韩等 31 种	12 小时 / 2 GB
`fun-asr-mtl-2025-08-25`	离线	异步 REST	热词	✗	✓	中、英、日、韩等 31 种	12 小时 / 2 GB
`fun-asr-flash-2026-06-15`	离线	HTTP 同步	Prompt 上下文	✗	✗	中、英、日、韩等 37 种	5 分钟 / 2 GB

Qwen3-ASR

模型ID	模式	API	精度增强	情绪识别	说话人分离	语言	最大时长
`qwen3-asr-flash-realtime`	实时	WebSocket	--	✓	✗	26 种语言	流式
`qwen3-asr-flash-realtime-2026-02-10`	实时	WebSocket	--	✓	✗	26 种语言	流式
`qwen3-asr-flash-realtime-2025-10-27`	实时	WebSocket	--	✓	✗	26 种语言	流式
`qwen3-asr-flash-filetrans`	离线	异步 REST	--	✓	✗	26 种语言	--
`qwen3-asr-flash-filetrans-2025-11-17`	离线	异步 REST	--	✓	✗	26 种语言	--
`qwen3-asr-flash`	离线	异步 REST	--	✓	✗	26 种语言	--
`qwen3-asr-flash-2026-02-10`	离线	异步 REST	--	✓	✗	26 种语言	--
`qwen3-asr-flash-2025-09-08`	离线	异步 REST	--	✓	✗	26 种语言	--

Qwen-Omni

模型ID	模式	API	精度增强	情绪识别	说话人分离	语言	最大时长
`qwen3.5-omni-plus`	离线	HTTP (OpenAI)	Prompt 上下文	✓	✗	113 种语言/方言	单次请求限制
`qwen3.5-omni-plus-2026-03-15`	离线	HTTP (OpenAI)	Prompt 上下文	✓	✗	113 种语言/方言	单次请求限制
`qwen3.5-omni-flash`	离线	HTTP (OpenAI)	Prompt 上下文	✓	✗	113 种语言/方言	单次请求限制
`qwen3.5-omni-flash-2026-03-15`	离线	HTTP (OpenAI)	Prompt 上下文	✓	✗	113 种语言/方言	单次请求限制
`qwen3.5-omni-plus-realtime`	实时	WebSocket	Prompt 上下文	✓	✗	113 种语言/方言	120 分钟
`qwen3.5-omni-plus-realtime-2026-03-15`	实时	WebSocket	Prompt 上下文	✓	✗	113 种语言/方言	120 分钟
`qwen3.5-omni-flash-realtime`	实时	WebSocket	Prompt 上下文	✓	✗	113 种语言/方言	120 分钟
`qwen3.5-omni-flash-realtime-2026-03-15`	实时	WebSocket	Prompt 上下文	✓	✗	113 种语言/方言	120 分钟
`qwen3-omni-flash`	离线	HTTP (OpenAI)	Prompt 上下文	✓	✗	19 种语言/方言	单次请求限制
`qwen3-omni-flash-2025-12-01`	离线	HTTP (OpenAI)	Prompt 上下文	✓	✗	19 种语言/方言	单次请求限制
`qwen3-omni-flash-2025-09-15`	离线	HTTP (OpenAI)	Prompt 上下文	✓	✗	19 种语言/方言	单次请求限制
`qwen3-omni-flash-realtime`	实时	WebSocket	Prompt 上下文	✓	✗	19 种语言/方言	120 分钟
`qwen3-omni-flash-realtime-2025-12-01`	实时	WebSocket	Prompt 上下文	✓	✗	19 种语言/方言	120 分钟
`qwen3-omni-flash-realtime-2025-09-15`	实时	WebSocket	Prompt 上下文	✓	✗	19 种语言/方言	120 分钟

Paraformer

模型ID	模式	API	精度增强	情绪识别	说话人分离	语言	最大时长
`paraformer-v2`	离线	异步 REST	热词	✗	✗	中、英、日、韩、德、法、俄	--
`paraformer-8k-v2`	离线	异步 REST	热词	✗	✗	中	--
`paraformer-v1`	离线	异步 REST	热词	✗	✗	中、英	--
`paraformer-8k-v1`	离线	异步 REST	热词	✗	✗	中	--
`paraformer-mtl-v1`	离线	异步 REST	热词	✗	✗	中、英、日、韩等 10 种	--
`paraformer-realtime-v2`	实时	WebSocket	热词	✗	✗	中、英、日、韩、德、法、俄	流式
`paraformer-realtime-v1`	实时	WebSocket	热词	✗	✗	中	流式
`paraformer-realtime-8k-v2`	实时	WebSocket	热词	✗	✗	中	流式
`paraformer-realtime-8k-v1`	实时	WebSocket	热词	✗	✗	中	流式

所有模型均支持 WAV、MP3、AAC 等音频格式。

需要将语音翻译为其他语言？请参阅语音翻译模型，了解 LiveTranslate 和 Qwen-Omni 的实时与文件翻译能力。

了解更多

实时语音识别

流式输入音频，实时返回识别文本。

音频文件转写

通过异步 API 转写录音文件。

自定义热词

提升专业术语的识别准确率。

​从闭源模型迁移到千问云？

​实时还是离线？

​实时

​离线

​准实时方案

​处理专业术语

​说话人分离

​情绪识别

​推荐模型

​全部模型

​了解更多

实时语音识别

音频文件转写

自定义热词

从闭源模型迁移到千问云？

实时还是离线？

实时

离线

准实时方案

处理专业术语

说话人分离

情绪识别

推荐模型

全部模型

了解更多