跳转到主要内容
模型与推理

向量与重排序 FAQ

文本向量、多模态向量和重排序的常见问题——模型选择、维度、批量限制及使用场景。

文本向量

APIOpenAI 兼容DashScope

单条文本的最大输入长度是多少?

每条文本最多支持 8,192 个 token。超出限制的内容会在生成向量前被截断。对长文档生成向量时请注意控制输入长度。

支持多大的批量?

单次 API 调用最多接受 10 条文本。数据量更大时,将输入拆分为每批 10 条,分多次调用。如果传入文件而非数组,文件最多包含 10 行。

支持哪些向量维度?

text-embedding-v4 支持 2,048、1,536、1,024(默认)、768、512、256、128 和 64 维。text-embedding-v3 支持 1,024(默认)、768 和 512 维。使用 dimension 参数选择具体维度。 维度越高,保留的语义信息越丰富,但存储和计算成本也越高。1,024 维适用于大多数场景;高精度领域可选择 1,536 或 2,048 维;存储受限时可选择 512 维或更低。

什么时候使用 text_type 参数?

在搜索任务中使用 text_type 可以获得更好的效果:
  • text_type: 'query' — 用于用户查询,生成针对信息检索优化的向量。
  • text_type: 'document'(默认)— 用于存储文档,生成针对被检索优化的综合向量。
如果所有文本角色相同(如聚类、分类),无需设置 text_type。该参数仅 DashScope 端点支持。

稠密向量和稀疏向量有什么区别?

text-embedding-v4text-embedding-v3 支持三种输出类型,通过 output_type 参数控制:
类型优势不足适用场景
dense深度语义理解,能处理同义词和上下文计算和存储成本较高,无法保证精确关键词匹配语义搜索、RAG、内容推荐
sparse精确关键词匹配速度快,开销低无语义理解能力,会遗漏同义词日志检索、SKU 查询、精确过滤
dense&sparse兼具语义理解和关键词匹配能力存储要求更高,检索逻辑更复杂生产环境混合搜索引擎
生成 dense&sparse 的成本与仅生成单种向量相同。 该参数仅 DashScope 端点支持,OpenAI 兼容端点不支持 output_type

文本向量适用于哪些场景?

常见应用:语义搜索(向量相似度匹配)、RAG(检索增强生成)、推荐系统(物品间相似度)、聚类和文本分类。

多模态向量

APIDashScope multimodal embedding

支持哪些模态?

tongyi-embedding-vision-plustongyi-embedding-vision-flash 均支持文本、图像和视频。文本仅限中英文。适用于跨模态搜索(以文搜图、以图搜图、以文搜视频)、图像分类和视频分类等场景。

支持哪些图片和视频格式?

  • 图片:JPEG、PNG、BMP,通过公开 URL 或 Base64 编码字符串传入。每次请求最多 8 张图片,单张不超过 3 MB。
  • 视频:MP4、MPEG、MOV、MPG、WEBM、AVI、FLV、MKV,仅支持 URL(不支持 Base64)。单个视频不超过 10 MB。

多模态向量是否支持 OpenAI 兼容端点?

不支持。多模态向量需要使用 DashScope SDK 或 REST API。OpenAI 兼容端点(/compatible-mode/v1/embeddings)仅支持文本向量。

单次请求能发送多少内容?

没有固定的元素数量限制。限制条件是所有输入的总 token 数——批量请求不得超过模型的单次请求 token 上限。文本输入每条限制为 1,024 个 token。

重排序

APIOpenAI 兼容DashScope

重排序在什么场景最有价值?

初始检索返回 20–100+ 条相关度参差不齐的候选结果时,重排序的价值最大。典型 RAG 流程:先用向量检索 50–100 条候选,重排序后取 top 5–10,再传给大模型。 如果初始检索已返回高相关结果(如精确关键词匹配),重排序的提升有限。

instruct 参数是什么?如何编写指令?

instruct 用于引导模型的排序策略。指令必须用英文编写。 两个常见示例:
  • 问答检索(默认)"Given a web search query, retrieve relevant passages that answer the query." — 优先返回直接回答问题的文档。
  • 语义相似度"Retrieve semantically similar text." — 优先返回表达相同含义但措辞不同的文档,适用于 FAQ 匹配。
如果不设置,模型默认使用问答检索策略。

top_n 是什么?

top_n 限制返回的文档数量。设为 5 则只返回排名前 5 的文档。不设置则返回所有文档(按排序结果排列)。如果 top_n 超过文档总数,则返回所有文档。

模型选择

应该选择哪个文本向量模型?

大多数情况下推荐使用 text-embedding-v4。它支持指令、稀疏向量,且维度选项比 text-embedding-v3 更丰富。两个模型定价相同(每百万输入 token 0.5元),批量限制也相同(10 条文本,每条 8,192 token)。

有哪些重排序模型可用?

当前可用的重排序模型为 qwen3-rerank,支持单次请求最多 500 篇文档、每篇最多 4,000 token,覆盖 100+ 种语言。定价为每百万 token 0.5元,开通千问云后可获得 1M token 免费额度(90 天有效)。