将文本、图像和视频转换为统一语义空间中的数值向量,用于跨模态检索、相似度搜索和内容分类。
开始前:获取 API Key,将其设置为环境变量,如需使用 SDK 请先安装 DashScope SDK。
请求地址
- HTTP:
POST https://dashscope.aliyuncs.com/api/v1/services/embeddings/multimodal-embedding/multimodal-embedding - SDK
base_http_api_url:https://dashscope.aliyuncs.com/api/v1
模型概览
| 模型 | 支持模态 | 向量维度 |
|---|---|---|
| tongyi-embedding-vision-plus | 文本、图像、视频、多图 | 64、128、256、512、1024、1152(默认) |
| tongyi-embedding-vision-flash | 文本、图像、视频、多图 | 64、128、256、512、768(默认) |
使用说明
- 图像输入:公网 URL 或 Base64 数据 URI(
data:image/{format};base64,{data})。 - 多图输入:使用
multi_images字段,值为图像 URL 列表,最多 8 张。 - 视频输入:必须为公网 URL。通过
parameters中的fps参数控制采样帧率(取值范围 [0, 1],默认 1.0)。
鉴权
string
header
必填
千问云 API Key。详见获取 API Key。

