在千问云上提升文本、图像、视频、语音和视觉模型的输出准确性与一致性
不同模态下"准确性"的含义各不相同:文本生成追求事实正确、格式规范;图像和视频生成追求忠实还原提示词意图并保持高画质;语音合成追求自然流畅、音色准确;视觉模型则追求对图像输入的正确理解。但无论哪种模态,背后的优化方法是相通的。
本指南提供一套系统化的方法,帮助你诊断和修复准确性问题——从提示词工程到 RAG 再到微调——让你的应用从可用的原型进化为可靠的生产系统。虽然详细指导以文本生成为主,但每个章节都会说明其他模态的适用策略。
准确性优化可以从两个维度来考虑:
提示词工程是优化的第一步。它不需要额外基础设施,反馈即时,而且往往比预期更有效。
详细的提示词工程技巧请参阅文本生成提示词工程。
图像生成
优化之前,先确定衡量标准。构建一个包含 30-50 组问答对的评测集,覆盖你的实际使用场景。每组应包含:
对于正确性判断较为复杂的任务,使用 LLM-as-judge 配合清晰的评分标准通常能提供最佳的信噪比。
有了评测结果后,将失败案例归为两类:
RAG 在推理时将相关外部知识注入每次请求。它不完全依赖模型训练时学到的知识,而是从你的知识库中检索最相关的文档,放入提示词中。RAG 主要适用于文本和视觉任务。对于图像和视频生成,等效的做法是提供参考图像、详细的风格描述或音频样本来引导输出。
适合使用 RAG 的场景:
RAG 的准确性取决于两个环节:检索质量和生成质量。需要分开评估:
最有效的生产系统会将提示词工程和 RAG 结合使用:
完美的准确率既难以实现,也未必必要。合理的目标取决于错误成本与改进成本的权衡。
以客服场景为例:
从 90% 提升到 95% 所需的努力往往超过从 0% 到 90%。当改进的边际成本超过边际价值时,就是合适的停止点。
设计系统时要能优雅地处理模型出错的情况:
优化框架
准确性优化可以从两个维度来考虑:
- 上下文优化 — 模型缺乏必要的知识或指引。文本模型可通过改进提示词或检索增强生成(RAG)来解决;图像/视频模型可通过更详细的提示词、参考图或风格描述来解决;语音模型可通过模型选型和音色配置来解决。这个维度旨在提升正确性。
- 模型优化 — 模型行为不稳定。文本模型可通过 few-shot 示例或微调来解决;生成模型可通过固定 seed 值和统一参数配置来解决。这个维度旨在提升一致性。
- 先做提示词工程——用清晰的指令和示例获取最佳效果
- 构建评测集,客观衡量优化进展
- 诊断问题根因:是知识缺失、行为不稳定,还是两者兼有
- 如果模型需要外部信息,引入 RAG
- 如果模型需要学习新模式,进行微调
- 组合多种技术,反复迭代
提示词工程
提示词工程是优化的第一步。它不需要额外基础设施,反馈即时,而且往往比预期更有效。
| 策略 | 适用场景 | 示例 |
|---|---|---|
| 明确具体 | 模型回答模糊或偏离目标 | 不要说"总结一下",而是说"用 3 个要点总结这篇文章,每个要点不超过 20 字" |
| 补充上下文 | 模型缺少领域知识 | 在系统提示词中加入相关参考资料、术语定义或约束条件 |
| 提供 few-shot 示例 | 模型输出的格式或风格不一致 | 给出 2-5 组输入/输出示例,展示你期望的行为 |
| 思维链(Chain of thought) | 模型出现推理错误 | 加上"请逐步思考",或提供一个展示推理过程的完整示例 |
| 设定约束 | 模型产生不符合要求的内容 | 明确说明需要包含什么、排除什么、以及如何处理边界情况 |
qwen3-max 等长上下文模型支持最多 256K tokens 的输入,但在超长上下文中,位于中间的信息可能不如首尾部分受到关注。请将最重要的内容——指令、关键参考资料——放在提示词的开头或结尾。
其他模态的提示词工程
图像生成
- 使用结构化提示词公式:主体 + 场景 + 风格 + 情绪 + 技术细节。例如,"一只金毛犬坐在阳光明媚的花园里,水彩画风格,温暖宁静,背景虚化。"详细技巧请参阅图像生成提示词工程。
- 使用负向提示词排除常见缺陷,如模糊、多余肢体或文字伪影。
prompt_extend(提示词改写)功能可以自动丰富简短的提示词,但会增加约 3-4 秒延迟。探索阶段可以开启,生产环境中如果提示词已经精心设计,建议关闭。- 模型选择很重要:Qwen-Image 擅长在图像中渲染文字,Wan 则生成更逼真的照片效果。模型对比请参阅文生图。
- 提示词结构为"主体 + 场景 + 动作"。必须明确描述你想要的运动——模型不会从静态场景描述中自动推断运动。详见视频生成提示词工程。
- 使用多镜头模式保持跨场景的主体一致性。详见文生视频。
- 使用负向提示词抑制视觉伪影,并固定
seed值以确保迭代过程中结果可复现。
- 优化输入图像和视频质量:裁剪到感兴趣的区域,确保分辨率满足分析细节的需要。
- 将最关键的问题放在提示词的开头或结尾,以获得最佳注意力分配。
- 如需从图像中提取文字,使用专用的 OCR 端点可获得更高准确率。详见 OCR 与文字提取。
- 文本转语音(TTS)场景中,根据需求选择合适的模型:
instruct模型支持情感表达和细粒度控制,flash模型适用于低延迟的短文本场景,vd模型可通过文字描述设计自定义音色。详见语音合成。 - 使用 instruct TTS 模型时,可以用自然语言指令控制语速、情感和角色(如"用温暖友好的语气缓慢说话")。
- 自动语音识别(ASR)场景中,确保音频清晰、背景噪音最小。大文件建议传 URL 而非 Base64 编码数据,以避免请求体积限制。详见语音识别。
构建评测集
优化之前,先确定衡量标准。构建一个包含 30-50 组问答对的评测集,覆盖你的实际使用场景。每组应包含:
- 输入:发送给模型的完整提示词(包括系统消息和上下文)
- 期望输出:正确或理想的回复
- 评测标准:判断回复是否可接受的依据
| 方法 | 适用场景 | 工作原理 |
|---|---|---|
| 精确匹配 | 分类、信息提取、是/否判断 | 将模型输出与期望答案直接比较 |
| ROUGE / BERTScore | 摘要、翻译 | 衡量模型输出与参考答案之间的词语重叠度或语义相似度 |
| LLM-as-judge | 开放式生成、复杂任务 | 用 qwen3-max 等高能力模型按评分标准对输出打分 |
| 任务特定指标 | 领域专属任务 | 自定义指标(如 JSON 格式是否合法、SQL 语法是否正确、实体覆盖率等) |
非文本模态的评测
- 图像和视频生成:从提示词忠实度、画质、文字清晰度(如适用)和伪影程度等维度进行 1-5 分评分。为每个分数档建立带有参考示例的评分标准。
- 语音合成(TTS):通过平均主观评价分(MOS)测试,从自然度、可懂度和音色相似度(针对克隆音色)等维度评估。每个样本安排多人评分。
- 语音识别(ASR):在有代表性的音频测试集上,对照标准转录文本计算词错误率(WER)。
- 视觉与全模态:采用 LLM-as-judge 方法——将模型输出、源图像和期望答案一起发送给高能力文本模型进行自动评分。
诊断问题
有了评测结果后,将失败案例归为两类:
- 知识缺失(上下文问题) — 模型缺少所需信息。文本模型可能会编造事实或给出笼统回答。图像/视频生成模型则表现为提示词缺乏细节,导致输出偏离预期的主体、风格或构图。文本/视觉任务可通过 RAG 解决,生成任务可通过丰富提示词和参考素材解决。
- 行为不稳定(学习问题) — 模型拥有信息但无法稳定地使用。文本模型可能输出格式不一致或忽略指令。图像/视频生成模型则表现为相同提示词下风格、构图或质量波动。文本模型可通过 few-shot 示例或微调解决,生成模型可通过固定 seed 值和稳定参数配置解决。
检索增强生成(RAG)
RAG 在推理时将相关外部知识注入每次请求。它不完全依赖模型训练时学到的知识,而是从你的知识库中检索最相关的文档,放入提示词中。RAG 主要适用于文本和视觉任务。对于图像和视频生成,等效的做法是提供参考图像、详细的风格描述或音频样本来引导输出。
适合使用 RAG 的场景:
- 模型需要频繁更新的信息(产品目录、知识库、政策文档)
- 模型需要不在训练数据中的专有或领域特定数据
- 需要引用来源或基于特定文档生成回复
- 视觉任务中,模型需要对照参考知识库分析图像(如从目录中识别产品、验证文档格式、或对照品牌规范检查视觉资产)
评估 RAG 管线
RAG 的准确性取决于两个环节:检索质量和生成质量。需要分开评估:
| 指标 | 衡量内容 | 检查方法 |
|---|---|---|
| 检索精确率 | 检索到的文档是否相关? | 抽样 50 个查询,检查 top-3 结果是否包含所需信息 |
| 检索召回率 | 是否找到了所有相关文档? | 对于已知答案的问题,验证源文档是否出现在结果中 |
| 生成忠实度 | 模型是否基于检索内容生成回复? | 检查回答是否基于提供的上下文,而非凭空编造 |
| 端到端准确率 | 完整管线的回答是否正确? | 用评测集跑完整 RAG 管线 |
检索优化建议
- 分块大小很重要 — 分块太小会丢失上下文,太大会稀释相关性。建议从 200-500 tokens 开始,逐步调整。
- 使用重排序 — 两阶段管线(快速检索 + 精确重排序)能在不损失召回率的前提下显著提升精确率。
- 索引与查询保持一致 — 索引和查询阶段使用相同的 Embedding 模型和预处理方式。
- 添加元数据过滤 — 在语义搜索前按日期、类别或来源进行过滤,缩小候选集范围。
- 文本 Embedding — 生成语义搜索用的 Embedding 向量
- 重排序 — 使用重排序模型提升检索精确率
技术组合
最有效的生产系统会将提示词工程和 RAG 结合使用:
- 提示词工程 + RAG — 清晰的指令告诉模型如何使用检索到的上下文。few-shot 示例展示期望的输出格式。
- 结构化输出 + RAG — 使用结构化输出在处理检索文档时强制统一响应格式。
- 过多上下文可能引入噪音。 检索过多文档或在提示词中塞入过多信息可能让模型产生困惑。务必验证增加上下文确实提高了评测分数。
- 先用完简单方法。 提示词工程快速且免费,RAG 需要适度投入。只有当前方法效果见顶时再引入下一项技术。
准确率需要达到多高
业务视角
完美的准确率既难以实现,也未必必要。合理的目标取决于错误成本与改进成本的权衡。
以客服场景为例:
| 准确率 | 表现 | 业务影响 |
|---|---|---|
| 80% | 正确处理常见问题,边界情况出错 | 降低了客服量,但约 20% 的查询需要人工审核 |
| 90% | 处理大部分问题(包括部分边界情况) | 显著节省成本,偶尔需要升级处理 |
| 95% | 几乎正确处理所有问题 | 接近全自动化,极少需要人工介入 |
| 99% | 近乎完美的回复 | 边际递减——最后 4% 的提升可能比前 95% 花费更多 |
技术视角
设计系统时要能优雅地处理模型出错的情况:
- 置信度阈值 — 模型不确定时,转人工处理或要求用户补充信息,而不是猜测。
- 输出校验 — 在执行前用 Schema、业务规则或合理性检查验证模型输出。
- 降级路径 — 提供优雅的降级方案(如"我不太确定,让我为您转接专家"),而不是给出错误答案。
- 持续监控 — 在生产环境中跟踪准确率指标并设置告警,以便及早发现回退问题。

