curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \
--header 'Content-Type: application/json' \
--header "Authorization: Bearer $DASHSCOPE_API_KEY" \
--data '{
"model": "wan2.6-image",
"input": {
"messages": [
{
"role": "user",
"content": [
{
"text": "Generate a tomato and egg stir-fry based on the style of image 1 and the background of image 2"
},
{
"image": "https://cdn.wanx.aliyuncs.com/tmp/pressure/umbrella1.png"
},
{
"image": "https://img.alicdn.com/imgextra/i3/O1CN01SfG4J41UYn9WNt4X1_!!6000000002530-49-tps-1696-960.webp"
}
]
}
]
},
"parameters": {
"prompt_extend": true,
"watermark": false,
"n": 1,
"enable_interleave": false,
"size": "1K"
}
}'{
"output": {
"choices": [
{
"finish_reason": "stop",
"message": {
"content": [
{
"image": "https://dashscope-result.oss-cn-shanghai.aliyuncs.com/xxx.png?Expires=xxx",
"type": "image"
}
],
"role": "assistant"
}
}
],
"finished": true
},
"usage": {
"image_count": 1,
"input_tokens": 0,
"output_tokens": 0,
"size": "1376*768",
"total_tokens": 0
},
"request_id": "a3f4befe-cacd-49c9-8298-xxxxxx"
}鉴权
千问云 API Key。详见获取 API Key。
请求体
application/json模型名称。设置为 wan2.6-image。
包含消息数组的输入数据。
显示子属性
显示子属性
请求内容数组。仅支持单轮对话,提供一条 role: user 的消息。
显示子属性
显示子属性
消息角色。必须为 user。
消息内容数组。必须包含且仅包含一个 text 对象。图像对象的数量取决于模式:
- 图像编辑模式(
enable_interleave=false):需要 1 到 4 个图像对象。 - 图文交织模式(
enable_interleave=true):0 到 1 个图像对象。
使用多张图像时,在数组中包含多个 image 对象,图像顺序由数组位置决定。
显示子属性
显示子属性
正向提示词,描述期望的图像内容、风格和构图。支持中英文,最多 2,000 个字符(每个汉字、字母、数字或符号均计为一个字符),超出部分将自动截断。content 数组中必须且仅包含一个 text 对象。
输入图像,可以是公开 URL(HTTP/HTTPS)或 Base64 编码字符串(data:{mime_type};base64,{data})。
图像限制:
- 格式:JPEG、JPG、PNG(不支持透明通道)、BMP、WEBP。
- 分辨率:宽和高各在 240 到 8,000 像素之间。
- 文件大小:最大 10 MB。
图像数量限制:
enable_interleave=false(图像编辑):需输入 1 到 4 张图像。enable_interleave=true(图文交织):可输入 0 到 1 张图像。
图像处理参数。
显示子属性
显示子属性
反向提示词,描述不希望出现在图像中的内容。支持中英文,最多 500 个字符,超出部分将自动截断。
示例:低分辨率、低质量、肢体变形、手指变形、颜色过度饱和、蜡像感、面部细节缺失、皮肤过度光滑、AI 痕迹明显、构图混乱、文字模糊或扭曲。
输出图像分辨率。支持两种方式:参考输入图像比例或直接指定尺寸。
图像编辑模式(enable_interleave=false):
- 方式一(推荐):
1K(默认)或2K。输出总像素接近 1280*1280 或 2048*2048,并保持最后一张输入图像的宽高比。 - 方式二:直接指定
宽*高(像素)。总像素需在 [768*768, 2048*2048] 范围内,宽高比在 [1:4, 4:1] 之间,实际值为 16 的倍数。
图文交织模式(enable_interleave=true):
- 方式一(默认):参考输入图像比例。若总像素 <= 1280*1280,输出与输入一致;若 > 1280*1280,则缩放至约 1280*1280。
- 方式二:指定
宽*高。总像素需在 [768*768, 1280*1280] 范围内,宽高比在 [1:4, 4:1] 之间。
推荐分辨率: 1280*1280(1:1)、800*1200(2:3)、1200*800(3:2)、960*1280(3:4)、1280*960(4:3)、720*1280(9:16)、1280*720(16:9)、1344*576(21:9)。
控制图像生成模式:
false(默认):图像编辑模式。支持多图输入(1-4 张),可进行主体一致性生成,可生成 1 到 4 张结果图像。true:图文交织输出模式。支持 0-1 张输入图像,生成包含文本和图像的混合内容。仅同步调用时,必须同时设置stream=true并添加X-DashScope-Sse: enable请求头;异步调用无需设置。
生成图像数量。行为取决于模式:
- 图像编辑模式(
enable_interleave=false):范围 1-4,默认值为 4。 - 图文交织模式(
enable_interleave=true):必须为 1,使用max_images控制图像数量。
注意: n 直接影响计费。费用 = 单价 × 成功生成的图像数量。
仅在图文交织模式(enable_interleave=true)下生效。指定模型在单次响应中最多可生成的图像数量,范围 1-5,默认值为 5。实际生成数量由模型推理决定,可能少于该值。
注意: max_images 影响计费。费用 = 单价 × 成功生成的图像数量。
仅在图像编辑模式(enable_interleave=false)下生效。启用智能提示词改写,对正向提示词进行优化扩展。反向提示词不受影响。
控制是否使用流式输出。仅同步调用时,在图文交织模式(enable_interleave=true)下必须设置为 true;异步调用无需设置此参数。
在图像右下角添加固定文本「AI Generated」的水印标识。
随机数种子,范围 [0, 2147483647]。相同种子可产生更一致(但不完全相同)的结果。若不指定,则使用随机种子。
响应
用于追踪和排查问题的唯一请求标识符。