覆盖所有模态的内容审核、输入/输出防护与负责任的 AI 实践
千问云对所有 API 请求自动执行内容审核。本文介绍内置安全系统的工作原理、如何处理审核响应,以及构建负责任 AI 应用的最佳实践。
所有 API 请求都会经过自动审核层,对输入和输出中的有害、违法或不当内容进行筛查。该过程透明运行,无需额外启用或配置。
内容被拦截时,API 返回
对于图像生成,还可能出现:"The image content does not comply with green network verification."
不要将原始错误消息直接展示给终端用户。捕获审核错误并优雅处理:
对于异步任务(图像/视频生成),审核错误出现在任务结果中,而非即时 HTTP 错误。当
部分语音识别模型支持内置的敏感词过滤功能,可在转写输出中替换检测到的敏感词。
Fun-ASR 模型支持通过
使用声音克隆功能录制音频时,录音内容不得包含涉及政治、色情或暴力的敏感词。包含此类内容的录音将无法通过克隆流程。
图像和视频生成支持启用水印,以标识内容为 AI 生成:
平台审核可以捕获违规内容,但应用也应在请求到达 API 前对输入进行验证。
对于将模型暴露给终端用户的应用,应设计 system prompt 以抵御 prompt 注入攻击:
即使有输入验证和平台审核,仍应在向用户展示前对模型输出进行验证。
使用结构化输出(JSON 模式或 JSON Schema)时,在执行操作前,先根据预期 schema 和业务规则验证解析后的输出。语法上合法的 JSON 响应仍可能包含语义错误或有害内容。
对于高风险决策(财务建议、医疗信息、法律指导):
千问云不会将您的输入和输出用于模型训练:
千问云提供平台级审核作为安全基线。构建安全的生产应用是双方的共同责任:
内置内容审核
所有 API 请求都会经过自动审核层,对输入和输出中的有害、违法或不当内容进行筛查。该过程透明运行,无需额外启用或配置。
审核范围
| 模态 | 输入筛查 | 输出筛查 |
|---|---|---|
| 文本生成 | Prompt、系统消息、对话历史 | 生成的文本 |
| 图像生成 | 文本 prompt、负向 prompt、参考图像 | 生成的图像 |
| 视频生成 | 文本 prompt、参考图像/视频 | 生成的视频 |
| 语音合成 | 输入文本 | 合成的音频 |
| 语音识别 | 输入音频 | 转写的文本 |
| 视觉理解 | 输入图像/视频 | 生成的分析结果 |
审核错误码
内容被拦截时,API 返回 400 状态码,并附带以下错误码之一:
| 错误码 | 消息 | 含义 |
|---|---|---|
data_inspection_failed | "Input or output data may contain inappropriate content." | 内容被平台审核策略拦截 |
data_inspection_failed | "Input data may contain inappropriate content." | 输入内容被拦截 |
data_inspection_failed | "Output data may contain inappropriate content." | 输出内容被拦截 |
ip_infringement_suspect | "Input data is suspected of being involved in IP infringement." | 输入可能涉及知识产权侵权 |
custom_role_blocked | "Input or output data may contain inappropriate content with custom rule." | 被自定义内容策略拦截 |
faq_rule_blocked | "Input or output data is blocked by faq rule." | 被 FAQ 规则拦截 |
处理审核错误
不要将原始错误消息直接展示给终端用户。捕获审核错误并优雅处理:
- Python
- Node.js
task_status 为 FAILED 时,检查任务的 output.code 字段:
语音相关安全功能
敏感词过滤(ASR)
部分语音识别模型支持内置的敏感词过滤功能,可在转写输出中替换检测到的敏感词。
| 模型 | 敏感词过滤 | 默认行为 |
|---|---|---|
| Fun-ASR, Fun-ASR-2025-11-07 | 支持 | 默认使用千问云敏感词列表进行过滤 |
| Qwen3-ASR-Flash-FileTranscription | 支持 | 始终启用 |
| Qwen3-ASR-Flash | 不支持 | — |
| Qwen-ASR (DashScope) | 不支持 | — |
special_word_filter 参数自定义过滤行为:
filter_with_signed— 将匹配的词替换为星号(*)filter_with_removal— 从转写结果中完全移除匹配的词system_reserved_filter— 设为true(默认)时,应用千问云内置敏感词列表
声音克隆内容限制
使用声音克隆功能录制音频时,录音内容不得包含涉及政治、色情或暴力的敏感词。包含此类内容的录音将无法通过克隆流程。
AI 生成内容水印
图像和视频生成支持启用水印,以标识内容为 AI 生成:
| 模态 | 水印文字 | 水印位置 |
|---|---|---|
| 图像生成 | AI-generated | 右下角 |
| 视频生成 | Generated by Qwen AI | 右下角 |
watermark 参数默认为 false。当需要标注内容来源或法规要求披露 AI 生成内容时,请启用该参数。
输入防护
平台审核可以捕获违规内容,但应用也应在请求到达 API 前对输入进行验证。
验证用户输入
- 长度限制 — 设置输出的
max_tokens并限制合理的最大输入长度,防止通过超长 prompt 进行滥用。 - 格式验证 — 如果应用期望结构化输入(产品描述、文档问答等),在发送给模型前先验证格式。
- 频率限制 — 对每个用户设置频率限制,防止单个用户过度消耗资源或试探审核边界。
System prompt 加固
对于将模型暴露给终端用户的应用,应设计 system prompt 以抵御 prompt 注入攻击:
- 将关键指令放在 system prompt 的开头和结尾,这些位置的指令最受模型关注。
- 明确指示模型忽略试图覆盖其角色或指令的尝试。
- 使用清晰的分隔符将系统指令与用户内容分开。
输出防护
即使有输入验证和平台审核,仍应在向用户展示前对模型输出进行验证。
结构化输出验证
使用结构化输出(JSON 模式或 JSON Schema)时,在执行操作前,先根据预期 schema 和业务规则验证解析后的输出。语法上合法的 JSON 响应仍可能包含语义错误或有害内容。
基于置信度的人工升级
对于高风险决策(财务建议、医疗信息、法律指导):
- 如果模型表达了不确定或模棱两可,应转交人工审核,而非直接展示响应。
- 使用第二次模型调用作为"裁判",在向用户展示前验证第一次的响应。
数据处理
千问云不会将您的输入和输出用于模型训练:
- 输入和输出仅在请求期间于内存中处理,响应返回后不会存储在持久化存储中。
- 元数据(token 用量、时间戳、请求 ID)会被记录,用于计费和频率限制。
- 使用 Responses API 且
store=true(默认)时,对话数据会保留 30 天。设置store=false可禁用对话留存。
共同责任
千问云提供平台级审核作为安全基线。构建安全的生产应用是双方的共同责任:
| 千问云提供 | 您需要实现 |
|---|---|
| 对所有输入和输出的自动内容审核 | 应用层的输入验证和格式检查 |
| 支持的 ASR 模型的敏感词过滤 | 输出验证和后处理 |
| 平台滥用检测和频率限制 | 按用户的身份认证和频率限制 |
| 传输和存储中的数据安全与加密 | System prompt 加固以防止 prompt 注入 |
| AI 生成内容水印 | 适当披露 AI 生成内容 |

