跳转到主要内容
多模态向量

DashScope 多模态向量

多模态向量化 API

POST
/services/embeddings/multimodal-embedding/multimodal-embedding
curl --location --request POST \
  'https://dashscope.aliyuncs.com/api/v1/services/embeddings/multimodal-embedding/multimodal-embedding' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--header 'Content-Type: application/json' \
--data '{
    "model": "tongyi-embedding-vision-plus",
    "input": {
        "contents": [
            {"text": "Multimodal embedding model"},
            {"image": "https://example.com/image.jpg"},
            {"video": "https://example.com/video.mp4"}
        ]
    }
}'
{
  "output": {
    "embeddings": [
      {
        "index": 0,
        "embedding": [
          0
        ],
        "type": "text"
      }
    ]
  },
  "usage": {
    "input_tokens": 0,
    "image_tokens": 0
  },
  "request_id": "1fff9502-a6c5-9472-9ee1-73930fdd04c5"
}
将文本、图像和视频转换为统一语义空间中的数值向量,用于跨模态检索、相似度搜索和内容分类。
开始前:获取 API Key将其设置为环境变量,如需使用 SDK 请先安装 DashScope SDK

请求地址

  • HTTP:POST https://dashscope.aliyuncs.com/api/v1/services/embeddings/multimodal-embedding/multimodal-embedding
  • SDK base_http_api_urlhttps://dashscope.aliyuncs.com/api/v1

模型概览

模型支持模态向量维度
tongyi-embedding-vision-plus文本、图像、视频、多图64、128、256、512、1024、1152(默认)
tongyi-embedding-vision-flash文本、图像、视频、多图64、128、256、512、768(默认)

使用说明

  • 图像输入:公网 URL 或 Base64 数据 URI(data:image/{format};base64,{data})。
  • 多图输入:使用 multi_images 字段,值为图像 URL 列表,最多 8 张。
  • 视频输入:必须为公网 URL。通过 parameters 中的 fps 参数控制采样帧率(取值范围 [0, 1],默认 1.0)。

鉴权

string
header
必填

千问云 API Key。详见获取 API Key

请求体

application/json
enum<string>
必填

多模态向量嵌入的模型名称。

tongyi-embedding-vision-plus,tongyi-embedding-vision-flash
tongyi-embedding-vision-plus
object
必填

包含内容项的输入数据。

object

多模态向量嵌入的参数。

响应

200-application/json
object
object

Token 用量统计。

string

唯一请求标识符。

1fff9502-a6c5-9472-9ee1-73930fdd04c5