跳转到主要内容
效果调优

模型调优

在千问云上提升文本、图像、视频、语音和视觉模型的输出准确性与一致性

不同模态下"准确性"的含义各不相同:文本生成追求事实正确、格式规范;图像和视频生成追求忠实还原提示词意图并保持高画质;语音合成追求自然流畅、音色准确;视觉模型则追求对图像输入的正确理解。但无论哪种模态,背后的优化方法是相通的。 本指南提供一套系统化的方法,帮助你诊断和修复准确性问题——从提示词工程到 RAG 再到微调——让你的应用从可用的原型进化为可靠的生产系统。虽然详细指导以文本生成为主,但每个章节都会说明其他模态的适用策略。

优化框架

准确性优化可以从两个维度来考虑:
  • 上下文优化 — 模型缺乏必要的知识或指引。文本模型可通过改进提示词或检索增强生成(RAG)来解决;图像/视频模型可通过更详细的提示词、参考图或风格描述来解决;语音模型可通过模型选型和音色配置来解决。这个维度旨在提升正确性
  • 模型优化 — 模型行为不稳定。文本模型可通过 few-shot 示例或微调来解决;生成模型可通过固定 seed 值和统一参数配置来解决。这个维度旨在提升一致性
大多数实际应用需要在两个维度同时改进。典型的优化路径如下:
  1. 先做提示词工程——用清晰的指令和示例获取最佳效果
  2. 构建评测集,客观衡量优化进展
  3. 诊断问题根因:是知识缺失、行为不稳定,还是两者兼有
  4. 如果模型需要外部信息,引入 RAG
  5. 如果模型需要学习新模式,进行微调
  6. 组合多种技术,反复迭代

提示词工程

提示词工程是优化的第一步。它不需要额外基础设施,反馈即时,而且往往比预期更有效。
策略适用场景示例
明确具体模型回答模糊或偏离目标不要说"总结一下",而是说"用 3 个要点总结这篇文章,每个要点不超过 20 字"
补充上下文模型缺少领域知识在系统提示词中加入相关参考资料、术语定义或约束条件
提供 few-shot 示例模型输出的格式或风格不一致给出 2-5 组输入/输出示例,展示你期望的行为
思维链(Chain of thought)模型出现推理错误加上"请逐步思考",或提供一个展示推理过程的完整示例
设定约束模型产生不符合要求的内容明确说明需要包含什么、排除什么、以及如何处理边界情况
详细的提示词工程技巧请参阅文本生成提示词工程
qwen3-max 等长上下文模型支持最多 256K tokens 的输入,但在超长上下文中,位于中间的信息可能不如首尾部分受到关注。请将最重要的内容——指令、关键参考资料——放在提示词的开头或结尾。

其他模态的提示词工程

图像生成
  • 使用结构化提示词公式:主体 + 场景 + 风格 + 情绪 + 技术细节。例如,"一只金毛犬坐在阳光明媚的花园里,水彩画风格,温暖宁静,背景虚化。"详细技巧请参阅图像生成提示词工程
  • 使用负向提示词排除常见缺陷,如模糊、多余肢体或文字伪影。
  • prompt_extend(提示词改写)功能可以自动丰富简短的提示词,但会增加约 3-4 秒延迟。探索阶段可以开启,生产环境中如果提示词已经精心设计,建议关闭。
  • 模型选择很重要:Qwen-Image 擅长在图像中渲染文字,Wan 则生成更逼真的照片效果。模型对比请参阅文生图
视频生成
  • 提示词结构为"主体 + 场景 + 动作"。必须明确描述你想要的运动——模型不会从静态场景描述中自动推断运动。详见视频生成提示词工程
  • 使用多镜头模式保持跨场景的主体一致性。详见文生视频
  • 使用负向提示词抑制视觉伪影,并固定 seed 值以确保迭代过程中结果可复现。
视觉与全模态模型
  • 优化输入图像和视频质量:裁剪到感兴趣的区域,确保分辨率满足分析细节的需要。
  • 将最关键的问题放在提示词的开头或结尾,以获得最佳注意力分配。
  • 如需从图像中提取文字,使用专用的 OCR 端点可获得更高准确率。详见 OCR 与文字提取
语音
  • 文本转语音(TTS)场景中,根据需求选择合适的模型:instruct 模型支持情感表达和细粒度控制,flash 模型适用于低延迟的短文本场景,vd 模型可通过文字描述设计自定义音色。详见语音合成
  • 使用 instruct TTS 模型时,可以用自然语言指令控制语速、情感和角色(如"用温暖友好的语气缓慢说话")。
  • 自动语音识别(ASR)场景中,确保音频清晰、背景噪音最小。大文件建议传 URL 而非 Base64 编码数据,以避免请求体积限制。详见语音识别

构建评测集

优化之前,先确定衡量标准。构建一个包含 30-50 组问答对的评测集,覆盖你的实际使用场景。每组应包含:
  • 输入:发送给模型的完整提示词(包括系统消息和上下文)
  • 期望输出:正确或理想的回复
  • 评测标准:判断回复是否可接受的依据
用评测集对当前模型跑一次基线测试,记录分数。之后每次修改都重新运行,确认修改确实带来了改进。 自动化评测方法 人工审核无法规模化。可考虑以下自动化方法:
方法适用场景工作原理
精确匹配分类、信息提取、是/否判断将模型输出与期望答案直接比较
ROUGE / BERTScore摘要、翻译衡量模型输出与参考答案之间的词语重叠度或语义相似度
LLM-as-judge开放式生成、复杂任务用 qwen3-max 等高能力模型按评分标准对输出打分
任务特定指标领域专属任务自定义指标(如 JSON 格式是否合法、SQL 语法是否正确、实体覆盖率等)
对于正确性判断较为复杂的任务,使用 LLM-as-judge 配合清晰的评分标准通常能提供最佳的信噪比。

非文本模态的评测

  • 图像和视频生成:从提示词忠实度、画质、文字清晰度(如适用)和伪影程度等维度进行 1-5 分评分。为每个分数档建立带有参考示例的评分标准。
  • 语音合成(TTS):通过平均主观评价分(MOS)测试,从自然度、可懂度和音色相似度(针对克隆音色)等维度评估。每个样本安排多人评分。
  • 语音识别(ASR):在有代表性的音频测试集上,对照标准转录文本计算词错误率(WER)。
  • 视觉与全模态:采用 LLM-as-judge 方法——将模型输出、源图像和期望答案一起发送给高能力文本模型进行自动评分。

诊断问题

有了评测结果后,将失败案例归为两类:
  • 知识缺失(上下文问题) — 模型缺少所需信息。文本模型可能会编造事实或给出笼统回答。图像/视频生成模型则表现为提示词缺乏细节,导致输出偏离预期的主体、风格或构图。文本/视觉任务可通过 RAG 解决,生成任务可通过丰富提示词和参考素材解决。
  • 行为不稳定(学习问题) — 模型拥有信息但无法稳定地使用。文本模型可能输出格式不一致或忽略指令。图像/视频生成模型则表现为相同提示词下风格、构图或质量波动。文本模型可通过 few-shot 示例或微调解决,生成模型可通过固定 seed 值和稳定参数配置解决。
这两类问题不是互斥的。同一个应用可能同时存在两类问题,而且经常如此。需要逐一诊断每个失败案例,选择对应的修复方案。

检索增强生成(RAG)

RAG 在推理时将相关外部知识注入每次请求。它不完全依赖模型训练时学到的知识,而是从你的知识库中检索最相关的文档,放入提示词中。RAG 主要适用于文本和视觉任务。对于图像和视频生成,等效的做法是提供参考图像、详细的风格描述或音频样本来引导输出。 适合使用 RAG 的场景:
  • 模型需要频繁更新的信息(产品目录、知识库、政策文档)
  • 模型需要不在训练数据中的专有或领域特定数据
  • 需要引用来源或基于特定文档生成回复
  • 视觉任务中,模型需要对照参考知识库分析图像(如从目录中识别产品、验证文档格式、或对照品牌规范检查视觉资产)

评估 RAG 管线

RAG 的准确性取决于两个环节:检索质量和生成质量。需要分开评估:
指标衡量内容检查方法
检索精确率检索到的文档是否相关?抽样 50 个查询,检查 top-3 结果是否包含所需信息
检索召回率是否找到了所有相关文档?对于已知答案的问题,验证源文档是否出现在结果中
生成忠实度模型是否基于检索内容生成回复?检查回答是否基于提供的上下文,而非凭空编造
端到端准确率完整管线的回答是否正确?用评测集跑完整 RAG 管线

检索优化建议

  • 分块大小很重要 — 分块太小会丢失上下文,太大会稀释相关性。建议从 200-500 tokens 开始,逐步调整。
  • 使用重排序 — 两阶段管线(快速检索 + 精确重排序)能在不损失召回率的前提下显著提升精确率。
  • 索引与查询保持一致 — 索引和查询阶段使用相同的 Embedding 模型和预处理方式。
  • 添加元数据过滤 — 在语义搜索前按日期、类别或来源进行过滤,缩小候选集范围。
千问云上构建 RAG 管线的相关资源:

技术组合

最有效的生产系统会将提示词工程和 RAG 结合使用:
  • 提示词工程 + RAG — 清晰的指令告诉模型如何使用检索到的上下文。few-shot 示例展示期望的输出格式。
  • 结构化输出 + RAG — 使用结构化输出在处理检索文档时强制统一响应格式。
组合使用时,注意两个原则:
  1. 过多上下文可能引入噪音。 检索过多文档或在提示词中塞入过多信息可能让模型产生困惑。务必验证增加上下文确实提高了评测分数。
  2. 先用完简单方法。 提示词工程快速且免费,RAG 需要适度投入。只有当前方法效果见顶时再引入下一项技术。

准确率需要达到多高

业务视角

完美的准确率既难以实现,也未必必要。合理的目标取决于错误成本与改进成本的权衡。 以客服场景为例:
准确率表现业务影响
80%正确处理常见问题,边界情况出错降低了客服量,但约 20% 的查询需要人工审核
90%处理大部分问题(包括部分边界情况)显著节省成本,偶尔需要升级处理
95%几乎正确处理所有问题接近全自动化,极少需要人工介入
99%近乎完美的回复边际递减——最后 4% 的提升可能比前 95% 花费更多
从 90% 提升到 95% 所需的努力往往超过从 0% 到 90%。当改进的边际成本超过边际价值时,就是合适的停止点。

技术视角

设计系统时要能优雅地处理模型出错的情况:
  • 置信度阈值 — 模型不确定时,转人工处理或要求用户补充信息,而不是猜测。
  • 输出校验 — 在执行前用 Schema、业务规则或合理性检查验证模型输出。
  • 降级路径 — 提供优雅的降级方案(如"我不太确定,让我为您转接专家"),而不是给出错误答案。
  • 持续监控 — 在生产环境中跟踪准确率指标并设置告警,以便及早发现回退问题。

后续阅读