POST/services/aigc/multimodal-generation/generationcURLcURL (image editing)复制curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation' \ --header 'Content-Type: application/json' \ --header "Authorization: Bearer $DASHSCOPE_API_KEY" \ --data '{ "model": "wan2.6-image", "input": { "messages": [ { "role": "user", "content": [ { "text": "Generate a tomato and egg stir-fry based on the style of image 1 and the background of image 2" }, { "image": "https://cdn.wanx.aliyuncs.com/tmp/pressure/umbrella1.png" }, { "image": "https://img.alicdn.com/imgextra/i3/O1CN01SfG4J41UYn9WNt4X1_!!6000000002530-49-tps-1696-960.webp" } ] } ] }, "parameters": { "prompt_extend": true, "watermark": false, "n": 1, "enable_interleave": false, "size": "1K" } }'200400复制{ "output": { "choices": [ { "finish_reason": "stop", "message": { "content": [ { "image": "https://dashscope-result.oss-cn-shanghai.aliyuncs.com/xxx.png?Expires=xxx", "type": "image" } ], "role": "assistant" } } ], "finished": true }, "usage": { "image_count": 1, "input_tokens": 0, "output_tokens": 0, "size": "1376*768", "total_tokens": 0 }, "request_id": "a3f4befe-cacd-49c9-8298-xxxxxx" }获取 API Key 并设置为环境变量。如需使用 SDK,请先安装 SDK。 此同步接口仅适用于 wan2.6-image 模型,可在单次请求中直接获取生成的图像,无需轮询。 如需异步处理,请使用异步提交接口。鉴权Authorizationstringheader必填千问云 API Key。详见获取 API Key。请求体application/jsonmodelenum<string>必填模型名称。设置为 wan2.6-image。可选值:wan2.6-image示例:wan2.6-imageinputobject必填包含消息数组的输入数据。显示子属性input.messagesobject[]必填请求内容数组。仅支持单轮对话,提供一条 role: user 的消息。取值范围:items: 1–1显示子属性input.messages.roleenum<string>必填消息角色。必须为 user。可选值:userinput.messages.contentobject[]必填消息内容数组。必须包含且仅包含一个 text 对象。图像对象的数量取决于模式: 图像编辑模式(enable_interleave=false):需要 1 到 4 个图像对象。 图文交织模式(enable_interleave=true):0 到 1 个图像对象。 使用多张图像时,在数组中包含多个 image 对象,图像顺序由数组位置决定。显示子属性input.messages.content.textstring正向提示词,描述期望的图像内容、风格和构图。支持中英文,最多 2,000 个字符(每个汉字、字母、数字或符号均计为一个字符),超出部分将自动截断。content 数组中必须且仅包含一个 text 对象。示例:Generate a tomato and egg stir-fry based on the style of image 1 and the background of image 2取值范围:length <= 2000input.messages.content.imagestring输入图像,可以是公开 URL(HTTP/HTTPS)或 Base64 编码字符串(data:{mime_type};base64,{data})。 图像限制: 格式:JPEG、JPG、PNG(不支持透明通道)、BMP、WEBP。 分辨率:宽和高各在 240 到 8,000 像素之间。 文件大小:最大 10 MB。 图像数量限制: enable_interleave=false(图像编辑):需输入 1 到 4 张图像。 enable_interleave=true(图文交织):可输入 0 到 1 张图像。 示例:https://cdn.wanx.aliyuncs.com/tmp/pressure/umbrella1.pngparametersobject图像处理参数。显示子属性parameters.negative_promptstring反向提示词,描述不希望出现在图像中的内容。支持中英文,最多 500 个字符,超出部分将自动截断。 示例:低分辨率、低质量、肢体变形、手指变形、颜色过度饱和、蜡像感、面部细节缺失、皮肤过度光滑、AI 痕迹明显、构图混乱、文字模糊或扭曲。取值范围:length <= 500parameters.sizestring输出图像分辨率。支持两种方式:参考输入图像比例或直接指定尺寸。 图像编辑模式(enable_interleave=false): 方式一(推荐):1K(默认)或 2K。输出总像素接近 1280*1280 或 2048*2048,并保持最后一张输入图像的宽高比。 方式二:直接指定 宽*高(像素)。总像素需在 [768*768, 2048*2048] 范围内,宽高比在 [1:4, 4:1] 之间,实际值为 16 的倍数。 图文交织模式(enable_interleave=true): 方式一(默认):参考输入图像比例。若总像素 <= 1280*1280,输出与输入一致;若 > 1280*1280,则缩放至约 1280*1280。 方式二:指定 宽*高。总像素需在 [768*768, 1280*1280] 范围内,宽高比在 [1:4, 4:1] 之间。 推荐分辨率: 1280*1280(1:1)、800*1200(2:3)、1200*800(3:2)、960*1280(3:4)、1280*960(4:3)、720*1280(9:16)、1280*720(16:9)、1344*576(21:9)。示例:1Kparameters.enable_interleaveboolean默认值false控制图像生成模式: false(默认):图像编辑模式。支持多图输入(1-4 张),可进行主体一致性生成,可生成 1 到 4 张结果图像。 true:图文交织输出模式。支持 0-1 张输入图像,生成包含文本和图像的混合内容。仅同步调用时,必须同时设置 stream=true 并添加 X-DashScope-Sse: enable 请求头;异步调用无需设置。 parameters.ninteger默认值4生成图像数量。行为取决于模式: 图像编辑模式(enable_interleave=false):范围 1-4,默认值为 4。 图文交织模式(enable_interleave=true):必须为 1,使用 max_images 控制图像数量。 注意: n 直接影响计费。费用 = 单价 × 成功生成的图像数量。取值范围:1 <= x <= 4parameters.max_imagesinteger默认值5仅在图文交织模式(enable_interleave=true)下生效。指定模型在单次响应中最多可生成的图像数量,范围 1-5,默认值为 5。实际生成数量由模型推理决定,可能少于该值。 注意: max_images 影响计费。费用 = 单价 × 成功生成的图像数量。取值范围:1 <= x <= 5parameters.prompt_extendboolean默认值true仅在图像编辑模式(enable_interleave=false)下生效。启用智能提示词改写,对正向提示词进行优化扩展。反向提示词不受影响。parameters.streamboolean默认值false控制是否使用流式输出。仅同步调用时,在图文交织模式(enable_interleave=true)下必须设置为 true;异步调用无需设置此参数。parameters.watermarkboolean默认值false在图像右下角添加固定文本「AI Generated」的水印标识。parameters.seedinteger随机数种子,范围 [0, 2147483647]。相同种子可产生更一致(但不完全相同)的结果。若不指定,则使用随机种子。取值范围:0 <= x <= 2147483647响应200-application/jsonoutputobject显示子属性output.choicesobject[]生成结果列表。显示子属性output.choices.finish_reasonstringstop 表示正常完成;null 表示流式输出仍在进行中。示例:stopoutput.choices.messageobject显示子属性output.choices.message.roleenum<string>固定为 assistant。可选值:assistantoutput.choices.message.contentobject[]响应内容数组,包含生成的图像 URL 和/或文本(图文交织模式下)。显示子属性output.choices.message.content.typeenum<string>内容类型:image 或 text。可选值:image,textoutput.choices.message.content.imagestring生成的图像 URL(PNG 格式)。有效期为 24 小时,请及时下载。output.choices.message.content.textstring文本内容(仅在图文交织输出模式下存在)。output.finishedboolean是否已完成生成。usageobject用量统计。显示子属性usage.image_countinteger生成的图像数量。usage.input_tokensinteger消耗的输入 token 数量。usage.output_tokensinteger消耗的输出 token 数量。usage.sizestring生成图像的分辨率。usage.total_tokensinteger消耗的总 token 数量(输入 + 输出)。request_idstring默认值"a3f4befe-cacd-49c9-8298-xxxxxx"用于追踪和排查问题的唯一请求标识符。示例:a3f4befe-cacd-49c9-8298-xxxxxx