描述复杂音频内容
Qwen3-Omni-Captioner 是基于 Qwen3-Omni 构建的开源模型,无需提示词即可为复杂音频生成描述,涵盖语音、环境音、音乐和音效等内容。该模型能识别说话者的情绪、音乐风格和乐器等元素,以及敏感信息。
前提条件
在调用中添加
模型支持两种上传本地文件的方式:
限制:
Qwen3-Omni-Captioner 的输入输出参数请参见 Chat completions API。
调用失败时,请参见错误信息。
模型对音频文件有以下限制:
您也可以使用 Qwen-Omni(
可用模型
| 模型 | 上下文窗口 | 最大输入 | 最大输出 | 输入费用 | 输出费用 | 免费额度 (说明) |
|---|---|---|---|---|---|---|
| qwen3-omni-30b-a3b-captioner | 65,536 | 32,768 | 32,768 | 15.8元 | 12.7元 | 100 万 tokens,开通千问云后 90 天内有效 |
音频的 Token 换算规则:
总 Token 数 = 音频时长(秒)× 12.5。音频时长不足 1 秒按 1 秒计算。快速开始
前提条件
- 获取 API Key 并将其导出为环境变量。
- 如果使用 SDK 调用,请安装最新版本的 SDK。
- OpenAI 兼容
- DashScope
完整 JSON 响应
完整 JSON 响应
工作原理
- 单轮交互: 模型不支持多轮对话,每次请求都是独立的分析任务。
- 固定任务: 模型的核心任务是生成英文音频描述。您无法通过指令(如 system message)改变其行为,例如控制输出格式或内容侧重点。
- 仅接受音频输入: 模型仅接受音频作为输入,无需传入文本提示词。
message参数的格式是固定的。
message 格式示例
message 格式示例
OpenAI 兼容:DashScope:
流式输出
流式输出的通用概念(SSE 协议、如何开启流式、计费和 Token 用量)请参见流式输出。本节仅介绍音频理解特有的流式行为。
stream: true 即可开启流式输出。流式行为与标准文本流式输出完全一致,唯一区别是输入消息的格式为音频而非文本。使用快速开始中的消息格式,添加流式参数即可:
传入本地文件 (Base64 编码或文件路径)
模型支持两种上传本地文件的方式:
- Base64 编码上传
- 直接传入文件路径(推荐,传输更稳定)
- Pass by file path
- Pass by Base64 encoding
直接将文件路径传入模型。此方式仅支持 DashScope Python 和 Java SDK,不支持 HTTP 调用。请参考下表根据编程语言和操作系统指定文件路径。
指定文件路径
指定文件路径
| 系统 | SDK | 输入文件路径 | 示例 |
|---|---|---|---|
| Linux 或 macOS | Python SDK | file://<文件绝对路径> | file:///home/images/test.mp3 |
| Linux 或 macOS | Java SDK | file://<文件绝对路径> | file:///home/images/test.mp3 |
| Windows | Python SDK | file://<文件绝对路径> | file://D:/images/test.mp3 |
| Windows | Java SDK | file:///<文件绝对路径> | file:///D:/images/test.mp3 |
- 推荐直接传入文件路径,传输更稳定。也可以使用 Base64 编码传入小于 1 MB 的文件。
- 直接传入文件路径时,音频文件大小不超过 10 MB。
- 使用 Base64 编码传入时,编码后的字符串大小不超过 10 MB。Base64 编码会增大数据体积。
- Pass by file path
- Pass by Base64 encoding
直接传入文件路径仅支持 DashScope Python 和 Java SDK,不支持 HTTP 调用。
API 参考
Qwen3-Omni-Captioner 的输入输出参数请参见 Chat completions API。
错误码
调用失败时,请参见错误信息。
常见问题
如何压缩音频文件到要求的大小?
如何压缩音频文件到要求的大小?
- 在线工具:可使用 Compresss 等在线工具压缩音频文件。
- 代码实现:可使用 FFmpeg 工具。详细用法请参见 FFmpeg 官方网站。
限制条件
模型对音频文件有以下限制:
- 时长: 不超过 40 分钟。
- 文件数量: 每次请求仅支持一个音频文件。
- 文件格式: 支持 AMR、WAV (CodecID: GSM_MS)、WAV (PCM)、3GP、3GPP、AAC 和 MP3。
- 文件输入方式: 公开可访问的音频 URL、Base64 编码或本地文件路径。
- 文件大小:
- 公开 URL:不超过 1 GB。
- 文件路径:音频文件不超过 10 MB。
- Base64 编码:编码后的 Base64 字符串不超过 10 MB。详情请参见传入本地文件。
如需压缩文件,请参见如何压缩音频文件到要求的大小?
替代方案:使用 Qwen-Omni
您也可以使用 Qwen-Omni(qwen3-omni-flash)配合提示词进行音频理解。与 Qwen3-Omni-Captioner 无需提示词直接生成描述不同,Qwen-Omni 允许您对音频提出具体问题。
Qwen-Omni 的完整功能(包括带音频输出的多模态对话),请参见音视频文件理解。

