悦动人像 EMO — 创建任务

提交悦动人像 EMO 唱演视频生成异步任务

POST

/services/aigc/image2video/video-synthesis

cURL

curl --location 'https://dashscope.aliyuncs.com/api/v1/services/aigc/image2video/video-synthesis' \
  --header 'X-DashScope-Async: enable' \
  --header "Authorization: Bearer $DASHSCOPE_API_KEY" \
  --header 'Content-Type: application/json' \
  --data '{
    "model": "emo-v1",
    "input": {
      "image_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20251225/onmomb/emo.png",
      "audio_url": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250825/aejgyj/input_audio.mp3",
      "face_bbox": [302, 286, 610, 593],
      "ext_bbox": [71, 9, 840, 778]
    },
    "parameters": {
      "style_level": "normal"
    }
  }'

{
  "output": {
    "task_id": "a8532587-fa8c-4ef8-82be-xxxxxx",
    "task_status": "PENDING"
  },
  "request_id": "7574ee8f-38a3-4b1e-9280-11c33ab46e51"
}

请先获取 API Key 并配置为环境变量。

模型概览

模型简介

模型名	模型简介
emo-v1	悦动人像 EMO，基于人物肖像图片和音频，生成口型与音频同步的唱演视频。适用于数字人播报、音乐 MV、虚拟主播等场景。

前置条件

在调用本接口前，需先调用 EMO 图像检测接口对人物图片进行检测，获取 face_bbox（人脸边界框）和 ext_bbox（扩展边界框），再将其传入本接口。

使用流程

调用 EMO 图像检测接口，传入人物图片，获取 face_bbox 和 ext_bbox。
调用本接口，将图片 URL、音频 URL 及上一步获取的 bbox 信息一并提交，获取 task_id。
调用查询视频生成结果接口，使用 task_id 轮询任务状态，直到获取生成的视频 URL。

错误码

大模型服务通用状态码请查阅错误信息。

鉴权

string

header

必填

千问 AI 平台 API Key。详见获取 API Key。

Header 参数

enum<string>

必填

固定值 enable，启用异步模式。

可选值：enable

请求体

application/json

enum<string>

必填

模型名称，固定为 emo-v1。

可选值：emo-v1

object

必填

显示子属性

string

必填

人物肖像图片公网 URL。模型将根据 EMO 图像检测 API 返回的 ext_bbox 参数对原始图片进行裁剪，裁剪后区域的宽高比决定输出视频的画幅比例与分辨率。支持 jpg、png、jpeg、bmp 格式；图像最小边长 >= 400 像素，最大边长 <= 7000 像素。仅支持 HTTP/HTTPS 链接。

string

必填

驱动视频的音频公网 URL。支持 wav、mp3 格式；文件大小不超过 15MB；音频时长不超过 60 秒。仅支持 HTTP/HTTPS 链接。

integer[]

必填

人脸边界框，格式为 [x1, y1, x2, y2]，代表人脸区域的左上角和右下角坐标。可通过 EMO 图像检测接口获取。

取值范围：items: 4–4

integer[]

必填

图片中动态区域 bbox 的像素坐标，应输入 EMO 图像检测 API 出参中同名字段的值。该区域的宽高比为 1:1 或 3:4。坐标格式 [x1, y1, x2, y2]，分别对应左上角和右下角两个点的坐标。可通过 EMO 图像检测接口获取。

取值范围：items: 4–4

object

显示子属性

enum<string>

默认值"normal"

生成视频的动态程度。normal：正常动态幅度；calm：较平静，动态幅度更小；active：较活跃，动态幅度更大。默认为 normal。

可选值：normal,calm,active

响应

200-application/json

string

本次请求的唯一 ID。

object

显示子属性

string

异步任务 ID，用于查询任务状态。

enum<string>

任务初始状态，值为 PENDING。

可选值：PENDING

​模型概览

​前置条件

​使用流程

​错误码

鉴权

Header 参数

请求体

响应

模型概览

前置条件

使用流程

错误码