Wan 2.7 — 参考素材生成视频

POST

/services/aigc/video-generation/video-synthesis

curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/video-generation/video-synthesis' \
  -H 'X-DashScope-Async: enable' \
  -H "Authorization: Bearer $DASHSCOPE_API_KEY" \
  -H 'Content-Type: application/json' \
  -d '{
  "model": "wan2.7-r2v-2026-06-12",
  "input": {
    "prompt": "Video 2 holds Image 3 and plays a soothing American country ballad in a coffee shop, while Video 1 smiles, watches Video 2, and slowly walks towards him",
    "media": [
      {"type": "reference_video", "url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/hfugmr/wan-r2v-role1.mp4"},
      {"type": "reference_video", "url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/qigswt/wan-r2v-role2.mp4"},
      {"type": "reference_image", "url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20260129/qpzxps/wan-r2v-object4.png"}
    ]
  },
  "parameters": {
    "resolution": "720P",
    "duration": 10,
    "prompt_extend": false,
    "watermark": true
  }
}'

{
  "request_id": "<string>",
  "output": {
    "task_id": "<string>",
    "task_status": "PENDING"
  }
}

基于多模态输入（文本、图片、视频），使用 Wan 2.7 模型（wan2.7-r2v）生成自然逼真的表演视频。

角色演绎：从参考图片或视频中复刻角色外观。参考视频还可复刻音色。支持单人或多人表演，最多可提供 5 个参考素材。
媒体数组输入：通过 media 数组提供参考图片、视频或首帧图像。在提示词中使用 Video 1/Image 1 按序引用对应角色，图片和视频分别计数。
多分镜叙事：通过时间段描述多镜头叙事（如 镜头 1 [0-3s]: ...），提供关键镜头，模型自动识别分镜逻辑。
声音克隆：通过 reference_voice 提供音频文件来设定音色。未指定时，默认使用参考视频中的音频。
分辨率与画面比例：通过 resolution 设置输出质量（720P/1080P），通过 ratio 设置画面比例（16:9、9:16、1:1、4:3、3:4）。提供 first_frame 首帧图像时，ratio 自动根据图像推断。
提示词扩写：启用 prompt_extend 后，LLM 会自动扩写提示词。较短的提示词效果提升明显，但会增加处理时间。

鉴权

string

header

必填

千问云 API Key。详见获取 API Key。

Header 参数

enum<string>

必填

必须设置为 enable，用于创建异步任务。

可选值：enable

请求体

application/json

enum<string>

必填

模型标识符。可选值：wan2.7-r2v（主线版本，持续更新）、wan2.7-r2v-2026-06-12（最新快照版本）。

可选值：wan2.7-r2v,wan2.7-r2v-2026-06-12

示例:wan2.7-r2v

object

必填

Wan 2.7 参考内容生视频的输入数据。

显示子属性

string

必填

描述期望视频内容的文本提示词。支持中文和英文，每个汉字、字母和标点符号均计为一个字符，超出限制的文本将自动截断。

引用标识符：使用 图片 1、图片 2（英文：Image 1、Image 2）等标识符引用参考图片中的角色，使用 视频 1、视频 2（英文：Video 1、Video 2）等标识符引用参考视频中的角色。编号与 media 数组中的顺序对应，图片和视频分开计数——图片 1 与 视频 1 可以同时存在。若只有一张参考图片或一段参考视频，也可以直接用「参考图片」或「参考视频」来指代。

场景描述：支持两种描述方式：（1）直接使用标识符："图片 1 正在图片 2 中玩耍"；（2）补充主体或场景背景："图片 1 中的猫正在图片 2 中的房间里玩耍"。

多镜头分镜：使用时间段描述多镜头叙事（例如 镜头 1 [0-3s]: ...）。无需描述每个镜头，只需提供关键镜头，模型会自动识别分镜逻辑。

示例:Video 2 holds Image 3 and plays a soothing American country ballad in a coffee shop

取值范围：length <= 5000

object[]

必填

参考媒体对象数组，每个对象包含 type 和 url 字段。支持图片和视频输入，用于视觉参考。图片支持多视角输入，常用于角色、道具和场景的参考。

排列顺序：数组中第一个 reference_video 为视频 1，第二个为视频 2，以此类推；第一个 reference_image 为图片 1，第二个为图片 2。图片和视频分开计数。

数量限制：至少需要 1 张参考图片或参考视频；图片与视频总数不得超过 5 个；first_frame 最多允许 1 个。每张参考图片或参考视频在用于主角刻画时，应只包含单个角色。

取值范围：items: 1–5

显示子属性

enum<string>

必填

参考媒体的类型。

reference_image：包含单个角色或物体的参考图片。支持格式：JPEG、JPG、PNG（不支持 alpha 通道）、BMP、WEBP。分辨率：每边 240-8000 px。宽高比：1:8 至 8:1。文件大小上限：20 MB。
reference_video：包含单个角色的参考视频。支持格式：MP4、MOV。时长：1-30 秒。分辨率：每边 240-4096 px。宽高比：1:8 至 8:1。文件大小上限：100 MB。
first_frame：生成视频的首帧图片，最多允许 1 张。支持格式和限制与 reference_image 相同。与主体参考配合使用时，分两种场景：（1）主体已在首帧中——通过主体参考增强角色一致性或参考音色；（2）主体不在首帧中——通过主体参考定义视频中途出现的新角色特征。

可选值：reference_image,reference_video,first_frame

string

必填

参考媒体文件的 URL。

string

指定生成视频中需要排除的内容。支持中文和英文，最多 500 个字符，超出限制的文本将自动截断。示例值：low resolution, error, worst quality, low quality, disfigured, extra fingers, bad proportions。

取值范围：length <= 500

string

用于音色参考的音频文件 URL。配合 reference_image 或 reference_video 使用，为主角指定音色。该音频仅用于音色参考，与说话内容无关。

支持格式：WAV、MP3。时长：1-10 秒。文件大小上限：15 MB。

默认行为：若 reference_video 包含音频且未指定 reference_voice，则使用视频原音作为音色参考。

优先级：若同时提供了 reference_video 音频和 reference_voice，则以 reference_voice 为准。

为获得最佳效果，参考音频的语言应与提示词语言一致。

object

Wan 2.7 参考内容生视频的生成参数。

显示子属性

enum<string>

默认值"1080P"

视频清晰度档位，分辨率越高费用越高。

实际输出尺寸取决于 ratio 参数：

720P：16:9=1280x720，9:16=720x1280，1:1=960x960，4:3=1104x832，3:4=832x1104
1080P：16:9=1920x1080，9:16=1080x1920，1:1=1440x1440，4:3=1648x1248，3:4=1248x1648

可选值：720P,1080P

enum<string>

默认值"16:9"

输出视频的宽高比。若提供了 first_frame 首帧图片，则忽略此参数，视频将采用首帧图片的宽高比。

可选值：16:9,9:16,1:1,4:3,3:4

integer

默认值5

视频时长（秒），时长越长费用越高，按秒计费。取值范围视参考素材而定：若参考素材包含视频，范围为 2-10 秒；若参考素材仅含图片，范围为 2-15 秒。

取值范围：2 <= x <= 15

boolean

默认值true

是否使用大语言模型对提示词进行扩写。对简短提示词有改善效果，但会增加处理时间。

integer

用于可复现生成的随机种子。若不指定，则随机生成。固定种子有助于提高复现性，但由于模型生成具有随机性，相同种子并不保证输出完全一致。

取值范围：0 <= x <= 2147483647

boolean

默认值false

是否在输出视频右下角添加「AI 生成」水印。

响应

200-application/json

string

唯一请求 ID。

object

显示子属性

string

任务 ID。使用此 ID 调用 GET /tasks/{task_id} 轮询任务结果。

enum<string>

任务初始状态，通常为 PENDING。

可选值：PENDING