基于多模态输入(文本、图片、视频),使用 Wan 2.7 模型(
wan2.7-r2v)生成自然逼真的表演视频。
- 角色演绎:从参考图片或视频中复刻角色外观。参考视频还可复刻音色。支持单人或多人表演,最多可提供 5 个参考素材。
- 媒体数组输入:通过
media数组提供参考图片、视频或首帧图像。在提示词中使用Video 1/Image 1按序引用对应角色,图片和视频分别计数。 - 多分镜叙事:通过时间段描述多镜头叙事(如
镜头 1 [0-3s]: ...),提供关键镜头,模型自动识别分镜逻辑。 - 声音克隆:通过
reference_voice提供音频文件来设定音色。未指定时,默认使用参考视频中的音频。 - 分辨率与画面比例:通过
resolution设置输出质量(720P/1080P),通过ratio设置画面比例(16:9、9:16、1:1、4:3、3:4)。提供first_frame首帧图像时,ratio自动根据图像推断。 - 提示词扩写:启用
prompt_extend后,LLM 会自动扩写提示词。较短的提示词效果提升明显,但会增加处理时间。

