为'语音输入 → 语音输出'场景(语音对话、语音翻译、同声传译等)选择模型。复制本文本文档面向"语音 → 语音"场景。如需视觉理解、音视频分析、内容审核等更广泛的多模态能力,请参考全模态。 从闭源模型迁移到千问云? 如果你正在使用 OpenAI Realtime 或 Gemini Live,可参考下表选择千问云对位模型。 闭源模型代表千问云推荐高能力实时对话OpenAI GPT Realtime、Gemini 3.1 Liveqwen3.5-omni-plus-realtime成本敏感对话OpenAI gpt-4o-mini Realtimeqwen3.5-omni-flash-realtime实时翻译 / 同传Gemini 3.1 Liveqwen3.5-livetranslate-flash-realtime S2S 与 Pipeline 对比 构建语音应用有两种方式: S2SPipeline(ASR + LLM + TTS)延迟低 — 单模型,流式输出较高 — 需经过 3 个串行环节音频理解端到端 — 能感知语气、情感并做出相应回应先转文字再处理 — 音频细节丢失语音定制通过 system prompt 选择预设音色支持声音克隆、声音设计(CosyVoice) 选择 S2S:适用于交互式对话、低延迟、需要感知音频情绪的场景。请继续阅读本页。 选择 Pipeline:适用于需要自定义音色,或希望为每个环节分别选择最佳 ASR、LLM 和 TTS 的场景。 本文档继续介绍 S2S 单模型路线(Omni、Livetranslate)。如选择 Pipeline 路线,分别在以下文档中挑选三个组件: ASR(语音识别):语音识别 LLM(大语言模型):文本生成 TTS(语音合成):语音合成 实时还是文件? 实时(WebSocket)— 适用于实时语音交互场景:语音助手、呼叫中心、同声传译。音频流式输入,语音流式输出。模型名称包含 -realtime。 文件(HTTP)— 适用于可以牺牲延迟换取更好效果的场景:视频配音、播客翻译、离线内容处理。文件模式下还支持 Function Calling、联网搜索、思考模式、视频上下文等附带能力(详见下方"S2S 单模型的附带能力")。 按场景选模型(S2S 单模型路线) 以下场景均针对 S2S 单模型路线。Pipeline 路线请按上述链接分别在 ASR / LLM / TTS 文档中选型。 场景推荐模型API语音助手 / 客服对话qwen3.5-omni-plus-realtimeWebSocket成本敏感的对话qwen3.5-omni-flash-realtimeWebSocket同声传译 / 直播翻译qwen3.5-livetranslate-flash-realtimeWebSocket视频配音 / 播客翻译qwen3-livetranslate-flashHTTP视频分析 / 批量打标(需要思考模式)qwen3-omni-flashHTTP S2S 单模型的附带能力 以下能力由 Qwen3.5-Omni / Qwen3-Omni 模型在 S2S 单模型路线下直接提供。Pipeline 路线中,对应能力需要由其中的 LLM 等组件分别支持。 Function calling 让模型根据听到和看到的内容执行操作 — 查询知识库、查询日程、触发工作流。使用 Qwen3.5 Omni(WebSocket 与 HTTP 模式)或 Qwen3 Omni(HTTP 模式)。 实时模型和 Livetranslate 模型不支持此功能。 联网搜索 让模型检索实时信息,回答关于时事、股价、天气等问题。使用 Qwen3.5 Omni(HTTP 和 WebSocket),包括 Plus 和 Flash 系列。模型自主决定是否搜索。 Qwen3-Omni-Flash 和 Livetranslate 模型不支持此功能。 思考模式 当回答质量比延迟更重要时,使用 Qwen3 Omni(HTTP 模式)。模型在回复前会逐步推理,适用于视频分析、批量打标等场景。 思考模式下不支持生成语音。 翻译 以下模型系列均支持语音翻译: Qwen3.5-Livetranslate — 支持 60 种语言互译,其中 29 种支持音频+文本输出、31 种仅支持文本输出,覆盖中文、英语、法语、德语、俄语、日语、韩语、西班牙语、葡萄牙语、阿拉伯语等主流语种。 Qwen3-Livetranslate — 支持 18 种语言 + 5 种中文方言,约 3 秒延迟,开箱即用。文件模式支持输入视频以获得上下文感知的翻译精度。其中 7 种语言仅输出文本(不输出语音)。 Qwen3.5-Omni — 支持 29 种输出语言 + 7 种中文方言。音视频理解能力更强,支持联网搜索。可通过 system prompt 注入术语和领域上下文。支持实时和文件两种模式。 Qwen3-Omni-Flash — 支持 11 种输出语言 + 8 种中文方言。可通过 system prompt 注入术语和领域上下文,适用于专业领域翻译。支持实时和文件两种模式。成本更低。 快速上手选 Qwen3.5-Livetranslate(60 种语言,约 3 秒延迟);追求最佳质量和最广语言覆盖选 Qwen3.5-Omni;控制成本选 Qwen3-Omni-Flash。 支持的语言语言Qwen3.5-LivetranslateQwen3-LivetranslateQwen3.5-OmniQwen3-Omni-Flash英语✓✓✓✓中文(普通话)✓✓✓✓ + 粤语仅文本✓✓✓ + 四川话✓✓✓✓ + 上海话✓✓✓✓ + 北京话✓✓✓✓ + 天津话✓✓✓✓ + 南京话——✓✓ + 陕西话——✓✓ + 闽南语——✓✓法语✓✓✓✓德语✓✓✓✓俄语✓✓✓✓意大利语✓✓✓✓西班牙语✓✓✓✓葡萄牙语✓✓✓✓日语✓✓✓✓韩语✓✓✓✓阿拉伯语✓仅文本✓—泰语✓仅文本✓✓越南语✓仅文本✓—印尼语✓仅文本✓—土耳其语✓仅文本✓—印地语✓仅文本✓—马来语✓—✓—荷兰语✓—✓—乌尔都语✓—✓—挪威语✓—✓—瑞典语✓—✓—丹麦语✓—✓—希伯来语✓—✓—芬兰语✓—✓—波兰语✓—✓—冰岛语✓—✓—捷克语✓—✓—菲律宾语✓—✓—波斯语✓—✓—希腊语仅文本仅文本——南非荷兰语仅文本———阿斯图里亚斯语仅文本———白俄罗斯语仅文本———保加利亚语仅文本———孟加拉语仅文本———波斯尼亚语仅文本———加泰罗尼亚语仅文本———宿务语仅文本———爱沙尼亚语仅文本———加利西亚语仅文本———古吉拉特语仅文本———克罗地亚语仅文本———匈牙利语仅文本———爪哇语仅文本———哈萨克语仅文本———卡纳达语仅文本———柯尔克孜语仅文本———拉脱维亚语仅文本———马其顿语仅文本———马拉雅拉姆语仅文本———马拉地语仅文本———旁遮普语仅文本———罗马尼亚语仅文本———斯洛伐克语仅文本———斯洛文尼亚语仅文本———斯瓦希里语仅文本———塔吉克语仅文本———阿塞拜疆语仅文本———乌克兰语仅文本———✓ = 音频 + 文本输出。"仅文本" = 该语言不支持音频输出。Qwen3.5-Livetranslate 共支持 60 种语言(29 种音频+文本,31 种仅文本)。Qwen3.5-Omni 共支持 113 种输入语言/方言。详见完整列表。旧版 qwen-omni-turbo 仅支持中文和英语。 推荐模型 下表列出每个系列的常用入口模型。如需锁定特定日期版本(用于版本回归或稳定性需求),请见下方"所有模型"。 模型API输入Function calling联网搜索思考模式翻译qwen3.5-omni-plus-realtimeWebSocket文本、音频、图像、视频—✓—29种qwen3.5-omni-plusHTTP文本、音频、图像、视频✓✓—29种qwen3.5-omni-flash-realtimeWebSocket文本、音频、图像、视频—✓—29种qwen3.5-omni-flashHTTP文本、音频、图像、视频✓✓—29种qwen3-omni-flash-realtimeWebSocket文本、音频、图像、视频———11种qwen3-omni-flashHTTP文本、音频、图像、视频✓—✓11种qwen3.5-livetranslate-flash-realtimeWebSocket音频———60种qwen3.5-livetranslate-flashHTTP音频、视频———18种 所有模型 Qwen3.5-Omni模型API输入Function calling联网搜索思考模式批量qwen3.5-omni-plus-realtimeWebSocket文本、音频、图像、视频—✓——qwen3.5-omni-plus-realtime-2026-03-15WebSocket文本、音频、图像、视频—✓——qwen3.5-omni-flash-realtimeWebSocket文本、音频、图像、视频—✓——qwen3.5-omni-flash-realtime-2026-03-15WebSocket文本、音频、图像、视频—✓——qwen3.5-omni-plusHTTP文本、音频、图像、视频✓✓——qwen3.5-omni-plus-2026-03-15HTTP文本、音频、图像、视频✓✓——qwen3.5-omni-flashHTTP文本、音频、图像、视频✓✓——qwen3.5-omni-flash-2026-03-15HTTP文本、音频、图像、视频✓✓——Qwen3-Omni-Flash模型API输入Function calling联网搜索思考模式批量qwen3-omni-flash-realtimeWebSocket文本、音频、图像、视频————qwen3-omni-flash-realtime-2025-12-01WebSocket文本、音频、图像、视频————qwen3-omni-flash-realtime-2025-09-15WebSocket文本、音频、图像、视频————qwen3-omni-flashHTTP文本、音频、图像、视频✓—✓—qwen3-omni-flash-2025-12-01HTTP文本、音频、图像、视频✓—✓—qwen3-omni-flash-2025-09-15HTTP文本、音频、图像、视频✓—✓—Qwen3.5-Livetranslate模型API输入语言数qwen3.5-livetranslate-flash-realtimeWebSocket音频60qwen3.5-livetranslate-flash-realtime-2026-05-19WebSocket音频60Qwen3-Livetranslate模型API输入语言数qwen3-livetranslate-flash-realtime(旧版)WebSocket音频18qwen3-livetranslate-flash-realtime-2025-09-22WebSocket音频18qwen3-livetranslate-flashHTTP音频、视频18qwen3-livetranslate-flash-2025-12-01HTTP音频、视频18旧版模型以下模型不再更新。新项目请使用 Qwen3.5-Omni 或 Qwen3-Omni-Flash。模型输入APIqwen2.5-omni-7b文本、音频、图像、视频HTTPqwen-omni-turbo文本、音频、图像、视频HTTPqwen-omni-turbo-latest文本、音频、图像、视频HTTPqwen-omni-turbo-2025-03-26文本、音频、图像、视频HTTPqwen-omni-turbo-2025-01-19文本、音频、图像、视频HTTPqwen-omni-turbo-realtime文本、音频WebSocketqwen-omni-turbo-realtime-latest文本、音频WebSocketqwen-omni-turbo-realtime-2025-05-08文本、音频WebSocket 下一步 选定模型后,参考对应的调用文档: Qwen3.5-Omni / Qwen3-Omni(WebSocket,实时)→ 实时多模态语音 Qwen3.5-Omni / Qwen3-Omni(HTTP,文件)→ 多模态语音 Qwen3.5-Livetranslate(WebSocket,实时)→ 实时翻译 Qwen3-Livetranslate(HTTP,文件)→ 文件翻译 了解更多 实时对话构建实时多模态语音助手。文件对话处理音频和视频文件并生成语音输出。实时翻译实时跨语言语音翻译。文件翻译翻译音频和视频文件。上一页实时音视频理解通过 WebSocket 或 WebRTC 接入 Qwen-Omni 系列模型,实现音频和视频的低延迟实时对话。下一页
提升 Wan 图像生成效果复制本文通过编写高效的提示词,使用文生图指南生成高质量图像。本指南涵盖提示词结构、视觉词汇和实用示例,帮助您稳定获得理想的生成效果。 提示词结构 提示词越完整、越精确,生成图像的质量就越高。以下两种提示词公式适用于不同需求。 基础公式 适用人群:初次尝试 AI 创作的新用户,以及将 AI 作为灵感来源的用户。适合快速探索和创意实验。 提示词 = 主体 + 场景 + 风格 要素控制内容示例主体画面主体——人物、动物、植物、物体或虚构生物"一只金毛犬"、"一座中世纪城堡"场景主体所在的环境——室内/室外、季节、天气、时间"在雪地森林中"、"海滩日落时分"风格艺术风格——写实、抽象、绘画风格"水彩风格"、"电影摄影风格" 示例 提示词效果25岁中国女孩,圆脸,看向镜头,精致民族服饰,商业摄影,户外,电影灯光,半身特写,精致淡妆,锐利边缘。 进阶公式 适用人群:有一定 AI 图像生成经验的用户。当您需要精细控制镜头、氛围和细节时使用此公式。 提示词 = 主体 + 场景 + 风格 + 镜头 + 氛围 + 细节修饰 要素控制内容示例主体具有特定特征和动作的主要对象"一个穿红裙子的可爱10岁中国女孩"场景详细的环境特征"被动物王国城市街道商店环绕"风格具体的艺术风格或视觉技法"水彩风格"、"皮克斯风格"、"羊毛毡风格"镜头景别、角度、镜头类型和构图"特写"、"居中构图"、"摄影镜头"氛围情绪和情感基调"梦幻"、"孤寂"、"壮丽"、"童趣"细节修饰质量和美学的精细调整"4K"、"高分辨率"、"逆光"、"自然" 示例 提示词效果一只羊毛毡制成的熊猫,戴着宽边帽,穿着蓝色警察制服马甲,腰间系着皮带,携带警用装备,戴蓝色手套,穿皮鞋,奔跑姿态,毡制效果,被动物王国城市街道商店环绕,高级滤镜,路灯,动物王国,童趣,可爱外观,夜晚,明亮,自然,可爱,4K,毡制材质,摄影镜头,居中构图,羊毛毡风格,皮克斯风格,逆光。 结构化提示词模板 如需最大程度地控制生成效果,可将以下维度作为参照清单,选取与目标图像相关的维度组合使用。 维度描述示例值主体画面的主要焦点"一只猎豹"、"一座古老的灯塔"动作/姿态主体正在做什么"奔跑中"、"看向镜头"风格艺术手法"3D 卡通"、"水墨画"、"写实"场景背景环境"茂密森林"、"夜晚的城市街道"光照光源和光线质感"电影灯光"、"逆光"、"霓虹灯"氛围情绪或情感"宁静"、"戏剧性"、"奇幻"镜头角度拍摄视角"平视"、"鸟瞰"、"仰视"景别主体在画面中的比例"大特写"、"中景"、"远景"镜头模拟的镜头类型"微距"、"长焦"、"鱼眼" 提示词参数 文生图 V2 的提示词相关参数: 参数位置描述textinput.messages[].content[].text正向提示词,描述要生成的图像内容。支持中文和英文。negative_promptparameters.negative_prompt反向提示词,指定需要从图像中排除的内容。prompt_extendparameters.prompt_extend是否启用智能提示词改写。默认为 true,由大语言模型进行智能改写。建议保持默认值以获得最佳效果。 请求示例 复制{ "model": "wan2.6-t2i", "input": { "messages": [ { "role": "user", "content": [ { "text": "一家鲜花店,精美的橱窗,漂亮的木门,门口摆放着鲜花" } ] } ] }, "parameters": { "negative_prompt": "人物", "prompt_extend": true } } 提示词词汇参考 以下内容提供五个视觉维度的常用关键词:景别、视角、镜头类型、风格和光照。您可以将任意关键词直接添加到提示词中。 景别 景别控制主体在画面中的占比,通常分为远景、全景、中景、近景和特写。 景别类型适用场景提示词关键词大特写突出面部细节、纹理、表情extreme close-up近景聚焦单一主体,保留部分环境close-up中景平衡主体与环境medium shot远景强调环境,展现空间感long shot 示例 大特写 高清相机,情感摄影,日落,大特写人像。 近景 18岁中国女孩,古装,圆脸,看向镜头,精致民族服饰,商业摄影,户外,电影灯光,半身近景,精致淡妆,锐利边缘。 中景 电影时尚人像摄影,亚洲年轻女性,中国苗族女孩,圆脸,看向镜头,优雅深色民族服饰,中广角镜头,晴天,理想化,高清相机拍摄。 远景 两个小人物站在远处的山顶上,背景是壮丽的雪山,背对镜头,静静欣赏日落。夕阳将雪山染成金色,与蔚蓝天空形成鲜明对比。两人仿佛沉醉于这壮观的自然景色中,整幅画面充满宁静与和谐。 视角 视角控制相机相对于主体的拍摄角度。 视角类型适用场景提示词关键词平视自然、亲切的视角eye level perspective鸟瞰俯瞰全景、展现图案和规模bird's eye perspective仰视戏剧性、雄伟、突出主体气势low angle航拍地形全景、地理环境概览aerial perspective 示例 平视 平视视角下的草原场景,一群绵羊悠闲地在翠绿的草地上吃草,羊毛在清晨柔和的阳光下泛着温暖的金色光泽,形成优美的光影效果。 鸟瞰 从空中俯瞰冰湖,湖中心有一艘小船,周围是漩涡图案和鲜艳的蓝色海水。螺旋深渊,从上方俯视拍摄,展现水面涟漪和雪地下层的精细细节。凝望辽阔寒冷的广袤天地,营造令人敬畏的宁静感。 仰视 热带地区的壮观场景,高大的椰子树如巨人般矗立,茂密的枝叶直指蓝天。仰视镜头让观者仿佛站在树下,感受大自然的雄伟与生机。阳光透过叶缝洒下斑驳光影,增添几分神秘与浪漫。整幅画面充满热带气息,仿佛能闻到椰香、感受到拂面微风。 航拍 大雪,村庄,道路,灯光,树木。航拍视角,写实效果。 镜头类型 镜头类型模拟不同相机镜头及其光学特性。 镜头类型适用场景提示词关键词微距微小细节、纹理、小型物体macro lens超广角壮阔风景、建筑内景ultra-wide angle lens长焦突出主体,背景虚化telephoto lens鱼眼夸张畸变、创意效果fisheye lens 示例 微距 樱桃,碳酸水,微距,专业调色,干净锐利对焦,商业高品质,杂志获奖摄影,超写实,UHD,8K。 超广角 蓝天碧海中的小岛,阳光透过树叶洒下斑驳光影。超广角镜头。 长焦 长焦镜头下,一只猎豹站在茂密的森林中,面朝镜头,背景巧妙虚化,使猎豹的面部成为画面的绝对焦点。阳光透过叶缝洒在猎豹身上,形成斑驳的光影效果,增强了视觉冲击力。 鱼眼 鱼眼镜头的特殊视角下,一位女性站立并直视镜头。她的形象在画面中心被夸张放大,周围呈现强烈的畸变效果,营造出独特的视觉冲击。 风格 风格定义图像的艺术外观和渲染技法。 风格适用场景提示词关键词3D 卡通动画角色、趣味场景3D cartoon style末日废土反乌托邦、废墟环境post-apocalyptic style点彩印象派点画、纹理感pointillism超现实主义梦幻、不可能的场景surrealist style水彩柔和、绘画感、透明效果watercolor黏土雕塑感、手工质感clay style写实摄影级真实感、逼真细节realistic陶瓷釉面、雕塑感、瓷器质感ceramic3D三维渲染、CGI 质感3D、C4D rendering水墨画东亚传统笔墨艺术ink painting折纸纸折叠、几何感、极简origami工笔画精细的中国传统绘画Gongbi painting中国水墨水墨晕染与中式美学Chinese ink style 示例 3D 卡通 女子网球运动员,短发,白色网球服,黑色短裤,侧身回球,3D 卡通风格。 末日废土 火星上的城市,末日废土风格。 点彩 一座可爱的白色小房子,茅草屋顶,覆雪的草原,大胆的点彩技法,莫奈风格,清晰笔触,模糊边缘,原始边缘纹理,低饱和度色调,低对比度,莫兰迪色系。 超现实主义 深灰色大海中一条粉色发光的河流,极简、唯美的氛围,电影灯光,超现实主义风格。 水彩 淡水彩,咖啡馆外,明亮白色背景,细节较少,梦幻感,吉卜力工作室风格。 黏土 黏土风格,穿蓝色毛衣的小男孩,棕色卷发,深蓝色贝雷帽,画板,户外,海边,半身照。 写实 篮子,葡萄,野餐布,超写实静物摄影,微距镜头,丁达尔效应。 陶瓷 一只精细的陶瓷小狗安静地卧在桌上,脖子上系着精致的铃铛。每一缕毛发都精心雕刻,眼睛、鼻子和嘴巴的细节栩栩如生。 3D 中国龙,可爱的中国龙趴在白云上睡觉,迷人花园,晨雾中,特写,正面视角,3D,C4D 渲染,32K 超高清,中国朋克风,动物雕像,Octane 渲染,超高清。 水墨画 兰花,水墨画,留白,意境,吴冠中风格,细腻笔触,宣纸质感。 折纸 折纸杰作,牛皮纸熊猫,森林背景,中景,极简主义,逆光,最佳品质。 工笔画 清晨,一枝梅花傲立雪中,花瓣如丝般精致,露珠轻挂其上,展现工笔画的精美之妙。 中国水墨 中国水墨风格,一位黑色长发男子,金色发簪,金色蝴蝶飞舞环绕,白色衣裳,高细节,高品质,深蓝色背景,背景隐约可见水墨竹林。 光照 光照设定图像的情绪、氛围和视觉层次。 光照类型适用场景提示词关键词自然光户外场景、真实温暖感sunlight、moonlight、starlight逆光剪影、光晕效果、戏剧性轮廓backlight霓虹灯城市夜景、赛博朋克美学neon light环境光柔和、弥漫、氛围感光照ambient light 示例 自然光 清晨的阳光洒在茂密森林的地面上,银白色光线穿透树冠,形成斑驳的光影,营造出写实而宁静的氛围。 逆光 逆光环境下,模特的轮廓线更加分明,金色光线和丝绸环绕模特,营造梦幻般的光晕效果。整个场景充满艺术气息,展现高水准的摄影技巧与创意。 霓虹灯 雨后的城市街景,霓虹灯在湿润的地面上映射出五彩光芒。行人撑伞匆匆而过,车辆缓缓驶过奇幻的街道,留下缤纷的光迹。整幅画面充满城市夜晚的神秘与浪漫,仿佛每颗雨滴都在诉说着城市的故事。 环境光 夜晚河畔的浪漫艺术场景,环境光柔和地照亮水面,一组莲花灯缓缓漂向河心,灯光与波光粼粼的水面交相辉映,营造梦幻般的视觉效果。上一页视频生成微调优化视频生成提示词的方法与技巧下一页