使用 API
对话模型
图像生成 API
视频生成 API
3D 生成 API
专项模型 API
语音合成
语音识别
语音对话
音乐生成
图片翻译
文本向量
多模态向量
重排序
平台 API
工具包与框架
更多
CosyVoice

CosyVoice 语音合成 Android SDK

使用原生 SDK 将 CosyVoice 模型的实时文本转语音功能集成到 Android 应用中。

CosyVoice Android SDK 为 Android 应用提供原生实时语音合成能力。SDK 支持两种调用方式:一次性输入文本合成和流式输入文本合成,通过 WebSocket 连接在合成过程中流式传输音频数据。

快速开始

1

获取 API Key

获取 API Key 并将其配置为环境变量以确保安全。为第三方应用或用户提供临时访问权限,或需要对敏感操作进行严格控制时,使用临时 API Key。临时 API Key 默认 60 秒后过期。
2

下载 SDK 并运行示例

下载最新 SDK 整合包。解压后,在 app/libs 目录下找到 AAR 格式的 SDK 并添加到项目依赖中。如需在 Android C++ 工程中集成,可使用压缩包中的 android_libsandroid_include 获取动态库和头文件。在 Android Studio 中打开项目,示例代码位于 DashCosyVoiceStreamTtsActivity.java。替换 API Key 后运行示例即可体验功能。
3

选择调用方式

根据场景选择合适的调用方式。
调用方式说明
一次性输入文本适用于短文本合成,支持 SSML 标记语言。调用 playStreamInputTtsasyncPlayStreamInputTts 发送文本并开始合成。发送文本长度不超过 20000 字符。
流式输入文本适用于实时对话、长文本"边说边合",不支持 SSML。调用 startStreamInputTts 开始合成,通过 sendStreamInputTts 持续发送文本,最后调用 stopStreamInputTtsasyncStopStreamInputTts 结束。单次发送不超过 20000 字符,累计不超过 20 万字符。
4

接收音频数据

onStreamInputTtsDataCallback 回调中接收音频数据。建议流式播放,如需本地保存,将音频数据追加到同一文件中直至合成结束。

请求参数

图像编辑

图像编辑

通过文本指令修改图片

快速开始

以下示例展示如何使用 qwen-image-2.0-pro,根据三张输入图片和一段提示词生成两张编辑后的图片。
输入提示词:图 1 中的女孩穿上图 2 中的黑色连衣裙,摆出图 3 中的坐姿。
输入图片 1输入图片 2输入图片 3输出图片(多张)
image99
image98
image89
image100
imageout2
调用前,请先获取 API Key 并将其配置为环境变量。 如需通过 SDK 调用,请先安装 DashScope SDK。SDK 支持 Python 和 Java。 Qwen 图片编辑模型支持一至三张输入图片。qwen-image-2.0qwen-image-edit-maxqwen-image-edit-plus 系列可生成一至六张图片,qwen-image-edit 仅可生成一张图片。生成图片的 URL 有效期为 24 小时,请及时下载至本地。
  • Python
  • Java
  • curl
import json
import os
import dashscope
from dashscope import MultiModalConversation

dashscope.base_http_api_url = 'https://dashscope.aliyuncs.com/api/v1'

# 模型支持一至三张输入图片
messages = [
  {
    "role": "user",
    "content": [
      {"image": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250925/thtclx/input1.png"},
      {"image": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250925/iclsnx/input2.png"},
      {"image": "https://help-static-aliyun-doc.aliyuncs.com/file-manage-files/zh-CN/20250925/gborgw/input3.png"},
      {"text": "Make the girl from Image 1 wear the black dress from Image 2 and sit in the pose from Image 3."}
    ]
  }
]

# 如未配置环境变量,请替换为您的 API Key:api_key="sk-xxx"
api_key = os.getenv("DASHSCOPE_API_KEY")

# qwen-image-2.0、qwen-image-edit-max 和 qwen-image-edit-plus 系列支持输出 1 至 6 张图片。本示例输出 2 张。
response = MultiModalConversation.call(
  api_key=api_key,
  model="qwen-image-2.0-pro",
  messages=messages,
  stream=False,
  n=2,
  watermark=False,
  negative_prompt=" ",
  prompt_extend=True,
  size="1024*1536",
)

if response.status_code == 200:
  # 如需查看完整响应,请取消注释以下行
  # print(json.dumps(response, ensure_ascii=False))
  for i, content in enumerate(response.output.choices[0].message.content):
    print(f"输出图片 {i+1} 的 URL:{content['image']}")
else:
  print(f"HTTP 状态码:{response.status_code}")
  print(f"错误码:{response.code}")
  print(f"错误信息:{response.message}")
{
  "status_code": 200,
  "request_id": "fa41f9f9-3cb6-434d-a95d-4ae6b9xxxxxx",
  "code": "",
  "message": "",
  "output": {
    "text": null,
    "finish_reason": null,
    "choices": [
      {
        "finish_reason": "stop",
        "message": {
          "role": "assistant",
          "content": [
            {
              "image": "https://dashscope-result-hz.oss-cn-hangzhou.aliyuncs.com/xxx.png?Expires=xxx"
            },
            {
              "image": "https://dashscope-result-hz.oss-cn-hangzhou.aliyuncs.com/xxx.png?Expires=xxx"
            }
          ]
        }
      }
    ],
    "audio": null
  },
  "usage": {
    "input_tokens": 0,
    "output_tokens": 0,
    "characters": 0,
    "height": 1536,
    "image_count": 2,
    "width": 1024
  }
}