Wan 2.6 — 同步调用

POST

/services/aigc/multimodal-generation/generation

curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--data '{
  "model": "wan2.6-image",
  "input": {
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "text": "Generate a tomato and egg stir-fry based on the style of image 1 and the background of image 2"
          },
          {
            "image": "https://cdn.wanx.aliyuncs.com/tmp/pressure/umbrella1.png"
          },
          {
            "image": "https://img.alicdn.com/imgextra/i3/O1CN01SfG4J41UYn9WNt4X1_!!6000000002530-49-tps-1696-960.webp"
          }
        ]
      }
    ]
  },
  "parameters": {
    "prompt_extend": true,
    "watermark": false,
    "n": 1,
    "enable_interleave": false,
    "size": "1K"
  }
}'

{
  "output": {
    "choices": [
      {
        "finish_reason": "stop",
        "message": {
          "content": [
            {
              "image": "https://dashscope-result.oss-cn-shanghai.aliyuncs.com/xxx.png?Expires=xxx",
              "type": "image"
            }
          ],
          "role": "assistant"
        }
      }
    ],
    "finished": true
  },
  "usage": {
    "image_count": 1,
    "input_tokens": 0,
    "output_tokens": 0,
    "size": "1376*768",
    "total_tokens": 0
  },
  "request_id": "a3f4befe-cacd-49c9-8298-xxxxxx"
}

获取 API Key 并设置为环境变量。如需使用 SDK，请先安装 SDK。

此同步接口仅适用于 wan2.6-image 模型，可在单次请求中直接获取生成的图像，无需轮询。如需异步处理，请使用异步提交接口。

鉴权

string

header

必填

千问云 API Key。详见获取 API Key。

请求体

application/json

enum<string>

必填

模型名称。设置为 wan2.6-image。

可选值：wan2.6-image

示例:wan2.6-image

object

必填

包含消息数组的输入数据。

显示子属性

object[]

必填

请求内容数组。仅支持单轮对话，提供一条 role: user 的消息。

取值范围：items: 1–1

显示子属性

enum<string>

必填

消息角色。必须为 user。

可选值：user

object[]

必填

消息内容数组。必须包含且仅包含一个 text 对象。图像对象的数量取决于模式：

图像编辑模式（enable_interleave=false）：需要 1 到 4 个图像对象。
图文交织模式（enable_interleave=true）：0 到 1 个图像对象。

使用多张图像时，在数组中包含多个 image 对象，图像顺序由数组位置决定。

显示子属性

string

正向提示词，描述期望的图像内容、风格和构图。支持中英文，最多 2,000 个字符（每个汉字、字母、数字或符号均计为一个字符），超出部分将自动截断。content 数组中必须且仅包含一个 text 对象。

示例:Generate a tomato and egg stir-fry based on the style of image 1 and the background of image 2

取值范围：length <= 2000

string

输入图像，可以是公开 URL（HTTP/HTTPS）或 Base64 编码字符串（data:{mime_type};base64,{data}）。

图像限制：

格式：JPEG、JPG、PNG（不支持透明通道）、BMP、WEBP。
分辨率：宽和高各在 240 到 8,000 像素之间。
文件大小：最大 10 MB。

图像数量限制：

enable_interleave=false（图像编辑）：需输入 1 到 4 张图像。
enable_interleave=true（图文交织）：可输入 0 到 1 张图像。

示例:https://cdn.wanx.aliyuncs.com/tmp/pressure/umbrella1.png

object

图像处理参数。

显示子属性

string

反向提示词，描述不希望出现在图像中的内容。支持中英文，最多 500 个字符，超出部分将自动截断。

示例：低分辨率、低质量、肢体变形、手指变形、颜色过度饱和、蜡像感、面部细节缺失、皮肤过度光滑、AI 痕迹明显、构图混乱、文字模糊或扭曲。

取值范围：length <= 500

string

输出图像分辨率。支持两种方式：参考输入图像比例或直接指定尺寸。

图像编辑模式（enable_interleave=false）：

方式一（推荐）：1K（默认）或 2K。输出总像素接近 1280*1280 或 2048*2048，并保持最后一张输入图像的宽高比。
方式二：直接指定 宽*高（像素）。总像素需在 [768*768, 2048*2048] 范围内，宽高比在 [1:4, 4:1] 之间，实际值为 16 的倍数。

图文交织模式（enable_interleave=true）：

方式一（默认）：参考输入图像比例。若总像素 <= 1280*1280，输出与输入一致；若 > 1280*1280，则缩放至约 1280*1280。
方式二：指定 宽*高。总像素需在 [768*768, 1280*1280] 范围内，宽高比在 [1:4, 4:1] 之间。

推荐分辨率： 1280*1280（1:1）、800*1200（2:3）、1200*800（3:2）、960*1280（3:4）、1280*960（4:3）、720*1280（9:16）、1280*720（16:9）、1344*576（21:9）。

示例:1K

boolean

默认值false

控制图像生成模式：

false（默认）：图像编辑模式。支持多图输入（1-4 张），可进行主体一致性生成，可生成 1 到 4 张结果图像。
true：图文交织输出模式。支持 0-1 张输入图像，生成包含文本和图像的混合内容。仅同步调用时，必须同时设置 stream=true 并添加 X-DashScope-Sse: enable 请求头；异步调用无需设置。

integer

默认值4

生成图像数量。行为取决于模式：

图像编辑模式（enable_interleave=false）：范围 1-4，默认值为 4。
图文交织模式（enable_interleave=true）：必须为 1，使用 max_images 控制图像数量。

注意： n 直接影响计费。费用 = 单价 × 成功生成的图像数量。

取值范围：1 <= x <= 4

integer

默认值5

仅在图文交织模式（enable_interleave=true）下生效。指定模型在单次响应中最多可生成的图像数量，范围 1-5，默认值为 5。实际生成数量由模型推理决定，可能少于该值。

注意： max_images 影响计费。费用 = 单价 × 成功生成的图像数量。

取值范围：1 <= x <= 5

boolean

默认值true

仅在图像编辑模式（enable_interleave=false）下生效。启用智能提示词改写，对正向提示词进行优化扩展。反向提示词不受影响。

boolean

默认值false

控制是否使用流式输出。仅同步调用时，在图文交织模式（enable_interleave=true）下必须设置为 true；异步调用无需设置此参数。

boolean

默认值false

在图像右下角添加固定文本「AI Generated」的水印标识。

integer

随机数种子，范围 [0, 2147483647]。相同种子可产生更一致（但不完全相同）的结果。若不指定，则使用随机种子。

取值范围：0 <= x <= 2147483647

响应

200-application/json

object

显示子属性

object[]

生成结果列表。

显示子属性

string

stop 表示正常完成；null 表示流式输出仍在进行中。

示例:stop

object

显示子属性

enum<string>

固定为 assistant。

可选值：assistant

object[]

响应内容数组，包含生成的图像 URL 和/或文本（图文交织模式下）。

显示子属性

enum<string>

内容类型：image 或 text。

可选值：image,text

string

生成的图像 URL（PNG 格式）。有效期为 24 小时，请及时下载。

string

文本内容（仅在图文交织输出模式下存在）。

boolean

是否已完成生成。

object

用量统计。

显示子属性

integer

生成的图像数量。

integer

消耗的输入 token 数量。

integer

消耗的输出 token 数量。

string

生成图像的分辨率。

integer

消耗的总 token 数量（输入 + 输出）。

string

默认值"a3f4befe-cacd-49c9-8298-xxxxxx"

用于追踪和排查问题的唯一请求标识符。

示例:a3f4befe-cacd-49c9-8298-xxxxxx