通过文本生成视频
Wan 文生视频模型支持多模态输入(文本和音频),可生成最长 15 秒、最高 1080P 分辨率的视频。
调用 API 前,请先获取 API Key,然后将 API Key 设置为环境变量。如需使用 SDK,请先安装 DashScope SDK。
第 1 步:创建任务,获取 task ID
第 2 步:通过 task ID 查询结果
将
输出示例
支持模型:
支持模型:
支持模型:
wan2.7:直接使用
请检查以下事项:
请排查以下问题:
- 核心能力:支持整数时长(2-15 秒)、自定义视频分辨率(720P 或 1080P)、画面比例控制、提示词改写和水印功能。
- 音频能力:支持自动配音或自定义音频文件,实现音画同步。(wan2.5 及以上版本支持)
- 多镜头叙事:生成包含多个镜头的视频,同时保持主体在镜头切换间的一致性。(wan2.6 和 wan2.7 支持)
快速开始
| 输入提示词 | 输出视频(多镜头,带音频) |
|---|---|
| 一段紧张刺激的侦探追查故事,展现电影级叙事能力。第1个镜头[0-3秒] 全景:雨夜的纽约街头,霓虹灯闪烁,一位身穿黑色风衣的侦探快步行走。第2个镜头[3-6秒] 中景:侦探进入一栋老旧建筑,雨水打湿了他的外套,门在他身后缓缓关闭。第3个镜头[6-9秒] 特写:侦探的眼神坚毅专注,远处传来警笛声,他微微皱眉思考。第4个镜头[9-12秒] 中景:侦探在昏暗走廊中小心前行,手电筒照亮前方。第5个镜头[12-15秒] 特写:侦探发现关键线索,脸上露出恍然大悟的表情。 |
Wan 2.7 使用
resolution + ratio 代替 size,并在提示词中直接描述多镜头(无需 shot_type 参数)。task_id 替换为上一步 API 返回的 task_id 值。
wan2.6 示例(Python SDK、Java SDK、curl)
wan2.6 示例(Python SDK、Java SDK、curl)
如需使用 SDK,请先安装 DashScope SDK。
- Python SDK
- Java SDK
- curl
运行以下代码前,请确认 DashScope Python SDK 版本不低于
1.25.8。版本过低可能报错 "url error, please check url!"。安装 SDK。video_url 有效期为 24 小时,请及时下载视频。核心能力
多镜头视频
支持模型:wan2.7、wan2.6 系列。
说明:模型会自动切换镜头(例如从全景切换到特写),适用于音乐 MV 等场景。
参数说明:
- wan2.7:在提示词中直接描述镜头(如
Shot 1 [0-3 s]: ...),无需shot_type参数。 - wan2.6:将
shot_type设为"multi"。 prompt_extend:设为true(启用提示词改写以优化镜头描述)。
| 输入提示词 | 输出视频(多镜头视频) |
|---|---|
| 展现未来科技与自然和谐共存的美好愿景。第1个镜头[0-2秒] 未来城市的空中花园全景,悬浮植物在微风中摇曳。第2个镜头[2-4秒] 机器人园丁正在精心修剪植物,动作精准而优雅。第3个镜头[4-7秒] 阳光透过透明穹顶洒下,照亮整个花园,展现科技与自然的完美融合。第4个镜头[7-10秒] 镜头拉远,展现整个未来城市的壮观景象,空中花园只是其中的一部分。 |
- Python SDK
- Java SDK
- curl
请确认 DashScope Python SDK 版本不低于
1.25.8。安装 SDK。音画同步
支持模型:wan2.7、wan2.6 系列、wan2.5 系列。
说明:让画面中的角色说话或唱歌,口型与音频精确匹配。更多示例请参阅视频生成音频指南。
参数说明:
- 传入音频文件:通过
audio_url传入音频,模型将口型与音频对齐。 - 自动配音:默认生成带音频的视频,无需传入
audio_url。模型会根据场景自动生成背景音效、音乐或人声。
| 输入示例 | 输出视频(带音频视频) |
|---|---|
| 输入提示词: Shot from a low angle, in a medium close-up, with warm tones, mixed lighting (the practical light from the desk lamp blends with the overcast light from the window), side lighting, and a central composition. In a classic detective office, wooden bookshelves are filled with old case files and ashtrays. A green desk lamp illuminates a case file spread out in the center of the desk. A fox, wearing a dark brown trench coat and a light gray fedora, sits in a leather chair, its fur crimson, its tail resting lightly on the edge, its fingers slowly turning yellowed pages. Outside, a steady drizzle falls beneath a blue sky, streaking the glass with meandering streaks. It slowly raises its head, its ears twitching slightly, its amber eyes gazing directly at the camera, its mouth clearly moving as it speaks in a smooth, cynical voice: 'The case was cold, colder than a fish in winter. But every chicken has its secrets, and I, for one, intended to find them '. 输入音频: |
- Python SDK
- Java SDK
- curl
请确认 DashScope Python SDK 版本不低于
1.25.8。安装 SDK。生成无声视频
支持模型:wan2.2 系列、wan2.1 系列。
说明:适用于动态海报、无声短视频等纯视觉场景。
参数说明:wan2.2 及更早版本默认输出无声视频,无需额外配置。
| 输入提示词 | 输出视频(无声视频) |
|---|---|
| 低对比度,在一个复古的70年代风格地铁站里,街头音乐家在昏暗的色彩和粗糙的质感中演奏。他穿着旧式夹克,手持吉他,专注地弹奏。通勤者匆匆走过,一小群人渐渐聚拢聆听。镜头慢慢向右移动,捕捉到乐器声与城市喧嚣交织的场景,背景中有老式的地铁标志和斑驳的墙面。 |
- Python SDK
- Java SDK
- curl
请确认 DashScope Python SDK 版本不低于
1.25.8。安装 SDK。输入音频
- 文件数量:1 个。
- 输入方式:
- 公网 URL:支持 HTTP 或 HTTPS 协议。
输出视频
- 文件数量:1 个。
- 格式:MP4。各模型的输出规格详见视频生成模型。
- URL 有效期**:24 小时**。
- 分辨率设置:
- wan2.7:通过
resolution和ratio设置。例如resolution=1080P+ratio=16:9输出 1920x1080 视频。 - wan2.6 及更早版本:通过
size参数设置。例如size=1280*720输出 16:9 视频。
- wan2.7:通过
计费与限流
API 参考
常见问题
如何设置视频画面比例(例如 16:9)?
wan2.7:直接使用 ratio 参数(如 "16:9"、"9:16"、"1:1"、"4:3"、"3:4"),配合 resolution("720P" 或 "1080P")使用。
wan2.6 及更早版本:通过 size 参数指定视频分辨率(像素),系统自动计算画面比例。例如 size=1280*720 输出 16:9 视频。
SDK 报错:"url error, please check url!"
请检查以下事项:
- DashScope Python SDK 版本是否不低于
1.25.8。 - DashScope Java SDK 版本是否不低于
2.22.6。
调用失败,提示 "Model not exist"?
请排查以下问题:
- 模型名称是否拼写正确?

