模型调优 - 千问云

不同模态下"准确性"的含义各不相同：文本生成追求事实正确、格式规范；图像和视频生成追求忠实还原提示词意图并保持高画质；语音合成追求自然流畅、音色准确；视觉模型则追求对图像输入的正确理解。但无论哪种模态，背后的优化方法是相通的。本指南提供一套系统化的方法，帮助你诊断和修复准确性问题——从提示词工程到 RAG 再到微调——让你的应用从可用的原型进化为可靠的生产系统。虽然详细指导以文本生成为主，但每个章节都会说明其他模态的适用策略。

优化框架

准确性优化可以从两个维度来考虑：

上下文优化 — 模型缺乏必要的知识或指引。文本模型可通过改进提示词或检索增强生成（RAG）来解决；图像/视频模型可通过更详细的提示词、参考图或风格描述来解决；语音模型可通过模型选型和音色配置来解决。这个维度旨在提升正确性。
模型优化 — 模型行为不稳定。文本模型可通过 few-shot 示例或微调来解决；生成模型可通过固定 seed 值和统一参数配置来解决。这个维度旨在提升一致性。

大多数实际应用需要在两个维度同时改进。典型的优化路径如下：

先做提示词工程——用清晰的指令和示例获取最佳效果
构建评测集，客观衡量优化进展
诊断问题根因：是知识缺失、行为不稳定，还是两者兼有
如果模型需要外部信息，引入 RAG
如果模型需要学习新模式，进行微调
组合多种技术，反复迭代

提示词工程

提示词工程是优化的第一步。它不需要额外基础设施，反馈即时，而且往往比预期更有效。

策略	适用场景	示例
明确具体	模型回答模糊或偏离目标	不要说"总结一下"，而是说"用 3 个要点总结这篇文章，每个要点不超过 20 字"
补充上下文	模型缺少领域知识	在系统提示词中加入相关参考资料、术语定义或约束条件
提供 few-shot 示例	模型输出的格式或风格不一致	给出 2-5 组输入/输出示例，展示你期望的行为
思维链（Chain of thought）	模型出现推理错误	加上"请逐步思考"，或提供一个展示推理过程的完整示例
设定约束	模型产生不符合要求的内容	明确说明需要包含什么、排除什么、以及如何处理边界情况

详细的提示词工程技巧请参阅文本生成提示词工程。

qwen3-max 等长上下文模型支持最多 256K tokens 的输入，但在超长上下文中，位于中间的信息可能不如首尾部分受到关注。请将最重要的内容——指令、关键参考资料——放在提示词的开头或结尾。

其他模态的提示词工程

图像生成

使用结构化提示词公式：主体 + 场景 + 风格 + 情绪 + 技术细节。例如，"一只金毛犬坐在阳光明媚的花园里，水彩画风格，温暖宁静，背景虚化。"详细技巧请参阅图像生成提示词工程。
使用负向提示词排除常见缺陷，如模糊、多余肢体或文字伪影。
prompt_extend（提示词改写）功能可以自动丰富简短的提示词，但会增加约 3-4 秒延迟。探索阶段可以开启，生产环境中如果提示词已经精心设计，建议关闭。
模型选择很重要：Qwen-Image 擅长在图像中渲染文字，Wan 则生成更逼真的照片效果。模型对比请参阅文生图。

视频生成

提示词结构为"主体 + 场景 + 动作"。必须明确描述你想要的运动——模型不会从静态场景描述中自动推断运动。详见视频生成提示词工程。
使用多镜头模式保持跨场景的主体一致性。详见文生视频。
使用负向提示词抑制视觉伪影，并固定 seed 值以确保迭代过程中结果可复现。

视觉与全模态模型

优化输入图像和视频质量：裁剪到感兴趣的区域，确保分辨率满足分析细节的需要。
将最关键的问题放在提示词的开头或结尾，以获得最佳注意力分配。
如需从图像中提取文字，使用专用的 OCR 端点可获得更高准确率。详见 OCR 与文字提取。

语音

文本转语音（TTS）场景中，根据需求选择合适的模型：instruct 模型支持情感表达和细粒度控制，flash 模型适用于低延迟的短文本场景，vd 模型可通过文字描述设计自定义音色。详见语音合成。
使用 instruct TTS 模型时，可以用自然语言指令控制语速、情感和角色（如"用温暖友好的语气缓慢说话"）。
自动语音识别（ASR）场景中，确保音频清晰、背景噪音最小。大文件建议传 URL 而非 Base64 编码数据，以避免请求体积限制。详见语音识别。

构建评测集

优化之前，先确定衡量标准。构建一个包含 30-50 组问答对的评测集，覆盖你的实际使用场景。每组应包含：

输入：发送给模型的完整提示词（包括系统消息和上下文）
期望输出：正确或理想的回复
评测标准：判断回复是否可接受的依据

用评测集对当前模型跑一次基线测试，记录分数。之后每次修改都重新运行，确认修改确实带来了改进。 自动化评测方法 人工审核无法规模化。可考虑以下自动化方法：

方法	适用场景	工作原理
精确匹配	分类、信息提取、是/否判断	将模型输出与期望答案直接比较
ROUGE / BERTScore	摘要、翻译	衡量模型输出与参考答案之间的词语重叠度或语义相似度
LLM-as-judge	开放式生成、复杂任务	用 qwen3-max 等高能力模型按评分标准对输出打分
任务特定指标	领域专属任务	自定义指标（如 JSON 格式是否合法、SQL 语法是否正确、实体覆盖率等）

对于正确性判断较为复杂的任务，使用 LLM-as-judge 配合清晰的评分标准通常能提供最佳的信噪比。

非文本模态的评测

图像和视频生成：从提示词忠实度、画质、文字清晰度（如适用）和伪影程度等维度进行 1-5 分评分。为每个分数档建立带有参考示例的评分标准。
语音合成（TTS）：通过平均主观评价分（MOS）测试，从自然度、可懂度和音色相似度（针对克隆音色）等维度评估。每个样本安排多人评分。
语音识别（ASR）：在有代表性的音频测试集上，对照标准转录文本计算词错误率（WER）。
视觉与全模态：采用 LLM-as-judge 方法——将模型输出、源图像和期望答案一起发送给高能力文本模型进行自动评分。

诊断问题

有了评测结果后，将失败案例归为两类：

知识缺失（上下文问题） — 模型缺少所需信息。文本模型可能会编造事实或给出笼统回答。图像/视频生成模型则表现为提示词缺乏细节，导致输出偏离预期的主体、风格或构图。文本/视觉任务可通过 RAG 解决，生成任务可通过丰富提示词和参考素材解决。
行为不稳定（学习问题） — 模型拥有信息但无法稳定地使用。文本模型可能输出格式不一致或忽略指令。图像/视频生成模型则表现为相同提示词下风格、构图或质量波动。文本模型可通过 few-shot 示例或微调解决，生成模型可通过固定 seed 值和稳定参数配置解决。

这两类问题不是互斥的。同一个应用可能同时存在两类问题，而且经常如此。需要逐一诊断每个失败案例，选择对应的修复方案。

检索增强生成（RAG）

RAG 在推理时将相关外部知识注入每次请求。它不完全依赖模型训练时学到的知识，而是从你的知识库中检索最相关的文档，放入提示词中。RAG 主要适用于文本和视觉任务。对于图像和视频生成，等效的做法是提供参考图像、详细的风格描述或音频样本来引导输出。适合使用 RAG 的场景：

模型需要频繁更新的信息（产品目录、知识库、政策文档）
模型需要不在训练数据中的专有或领域特定数据
需要引用来源或基于特定文档生成回复
视觉任务中，模型需要对照参考知识库分析图像（如从目录中识别产品、验证文档格式、或对照品牌规范检查视觉资产）

评估 RAG 管线

RAG 的准确性取决于两个环节：检索质量和生成质量。需要分开评估：

指标	衡量内容	检查方法
检索精确率	检索到的文档是否相关？	抽样 50 个查询，检查 top-3 结果是否包含所需信息
检索召回率	是否找到了所有相关文档？	对于已知答案的问题，验证源文档是否出现在结果中
生成忠实度	模型是否基于检索内容生成回复？	检查回答是否基于提供的上下文，而非凭空编造
端到端准确率	完整管线的回答是否正确？	用评测集跑完整 RAG 管线

检索优化建议

分块大小很重要 — 分块太小会丢失上下文，太大会稀释相关性。建议从 200-500 tokens 开始，逐步调整。
使用重排序 — 两阶段管线（快速检索 + 精确重排序）能在不损失召回率的前提下显著提升精确率。
索引与查询保持一致 — 索引和查询阶段使用相同的 Embedding 模型和预处理方式。
添加元数据过滤 — 在语义搜索前按日期、类别或来源进行过滤，缩小候选集范围。

千问云上构建 RAG 管线的相关资源：

文本 Embedding — 生成语义搜索用的 Embedding 向量
重排序 — 使用重排序模型提升检索精确率

技术组合

最有效的生产系统会将提示词工程和 RAG 结合使用：

提示词工程 + RAG — 清晰的指令告诉模型如何使用检索到的上下文。few-shot 示例展示期望的输出格式。
结构化输出 + RAG — 使用结构化输出在处理检索文档时强制统一响应格式。

组合使用时，注意两个原则：

过多上下文可能引入噪音。 检索过多文档或在提示词中塞入过多信息可能让模型产生困惑。务必验证增加上下文确实提高了评测分数。
先用完简单方法。 提示词工程快速且免费，RAG 需要适度投入。只有当前方法效果见顶时再引入下一项技术。

准确率需要达到多高

业务视角

完美的准确率既难以实现，也未必必要。合理的目标取决于错误成本与改进成本的权衡。以客服场景为例：

准确率	表现	业务影响
80%	正确处理常见问题，边界情况出错	降低了客服量，但约 20% 的查询需要人工审核
90%	处理大部分问题（包括部分边界情况）	显著节省成本，偶尔需要升级处理
95%	几乎正确处理所有问题	接近全自动化，极少需要人工介入
99%	近乎完美的回复	边际递减——最后 4% 的提升可能比前 95% 花费更多

从 90% 提升到 95% 所需的努力往往超过从 0% 到 90%。当改进的边际成本超过边际价值时，就是合适的停止点。

技术视角

设计系统时要能优雅地处理模型出错的情况：

置信度阈值 — 模型不确定时，转人工处理或要求用户补充信息，而不是猜测。
输出校验 — 在执行前用 Schema、业务规则或合理性检查验证模型输出。
降级路径 — 提供优雅的降级方案（如"我不太确定，让我为您转接专家"），而不是给出错误答案。
持续监控 — 在生产环境中跟踪准确率指标并设置告警，以便及早发现回退问题。

后续阅读

文本生成提示词工程 — 详细的提示词工程技巧
图像生成提示词工程 — 编写高效的图像生成提示词
视频生成提示词工程 — 编写高效的视频生成提示词
语音合成 — TTS 模型选型与音色配置
视觉理解 — 使用视觉模型理解图像和视频
文本 Embedding — 用 Embedding 模型构建 RAG 管线
重排序 — 提升检索质量
结构化输出 — 获取一致且可解析的模型输出
模型选型 — 为你的任务选择合适的模型
成本优化 — 在保持质量的同时降低开支

​优化框架

​提示词工程

​其他模态的提示词工程

​构建评测集

​非文本模态的评测

​诊断问题

​检索增强生成（RAG）

​评估 RAG 管线

​检索优化建议

​技术组合

​准确率需要达到多高

​业务视角

​技术视角

​后续阅读

优化框架

提示词工程

其他模态的提示词工程

构建评测集

非文本模态的评测

诊断问题

检索增强生成（RAG）

评估 RAG 管线

检索优化建议

技术组合

准确率需要达到多高

业务视角

技术视角

后续阅读