Wan 2.6:支持多镜头叙事与声音克隆的开源 AI 视频生成
首个能从参考视频中克隆主体的开源视频模型——完整保留外观、运动和声音。以 27B 参数驱动,在 1080p 分辨率下生成带原生音频同步的多镜头叙事内容。
为什么 Wan 2.6 开创了 AI 视频的新范式
当前的 AI 视频生成器各自解决着拼图中的不同部分。有的擅长物理模拟,有的处理音频同步,还有的能做到不错的图片动画。但没有一个能解决根本性的创作难题:在多个镜头中用一致的主体讲述连贯的故事——这正是真实电影和广告的制作方式。
Wan 2.6 由阿里巴巴通义万象实验室开发,直击这一痛点。它是首个在单一架构中融合 Reference-to-Video(R2V,参考视频生成)主体克隆、多镜头叙事智能和原生音视频同步的视频生成模型——构建在拥有 27B 参数的开源 Mixture-of-Experts(混合专家)Diffusion Transformer(扩散变换器)之上。
Reference-to-Video:将任意主体克隆到新场景
R2V 是 Wan 2.6 的标志性创新——也是将它与其他所有视频生成器区分开的核心能力。上传一段包含人物、动物、角色或物体的短视频,Wan 2.6 就能生成包含同一主体的全新场景。模型能够保留:
- 视觉身份 ——面部特征、服装、身体比例和独特标记
- 运动特征 ——特有的运动模式和手势习惯
- 声音特质 ——参考视频中的音色、语调和语音模式
- 多主体组合 ——标记最多 3 个参考视频(@Video1、@Video2、@Video3),在一个场景中融合多个克隆主体
这与图生视频有本质区别——后者只是将静态画面变为动画。R2V 将主体理解为一个持久实体——它能在参考素材中从未出现过的新环境、新动作和新摄像机角度下保持身份一致。对于需要制作角色驱动内容、品牌吉祥物系列或连载故事的创作者来说,这消除了最大的瓶颈:跨生成的主体一致性。
多镜头叙事:单条提示词实现电影结构
传统 AI 视频生成的是单一连续镜头——适合氛围短片,但无法满足叙事内容的需求。Wan 2.6 的多镜头系统能智能地将提示词分割为连贯的场景,具备:
- 自动镜头规划 ——模型自主决定在哪里切换、使用什么角度、如何在场景间过渡
- 角色持久性 ——主体在所有镜头中保持一致的外观和行为
- 空间连续性 ——当摄像机在不同视角间切换时,环境保持逻辑一致
- 时间连贯性 ——动作在镜头边界之间自然流转,不出现断裂
描述一个 15 秒的产品故事,Wan 2.6 将生成一个建立镜头、一个产品特写和一个角色反应镜头——全部保持视觉一致,无需分别生成或手动编辑。
原生音视频同步
Wan 2.6 在与视频相同的神经网络处理过程中原生地生成同步音频,包括:
- 唇形同步对话 ——角色说话时,嘴部动作与生成的语音逐帧精确匹配
- 多人对话 ——每个角色拥有独立的声音,对话节奏和轮次自然流畅
- 环境音频 ——与视觉环境匹配的环境声(交通声、风声、人群声)
- 音效 ——物体交互、碰撞和物理驱动的音效与视觉事件同步
- 歌唱与表演 ——旋律演唱配合节奏匹配的唇部动作
音频不是后期配音或拼接的——它与视频同步生成,确保的同步精度需要专业编辑才能手动实现。
Wan 2.6 vs Wan 2.2:从基础模型到完整制作工具
Wan 2.2 基于 Apache 2.0 许可证发布,以电影级美学和创新的 MoE 架构确立了开源视频生成的标准。Wan 2.6 在此基础上增添了将其从研究模型转变为制作工具的关键能力。
| 特性 | Wan 2.2(开源) | Wan 2.6 |
|---|---|---|
| 最大分辨率 | 720p | 1080p |
| 最大时长 | 5s(720p) | 15s |
| Reference-to-Video | 不支持 | 支持(1-3 个参考) |
| 多镜头叙事 | 不支持 | 自动场景分割 |
| 原生音频 | 不支持 | 对话 + 音效 + 环境音 |
| 唇形同步 | 不支持 | 多人、多语言 |
| 声音克隆 | 不支持 | 从参考视频提取 |
| 架构 | MoE DiT (27B/14B) | MoE DiT (27B/14B) 增强版 |
| 文本编码器 | umT5 5.3B | umT5 5.3B + 增强 |
| 宽高比 | 16:9, 9:16, 1:1, 4:3, 3:4 | 16:9, 9:16, 1:1, 4:3, 3:4 |
| 许可证 | Apache 2.0 | 云端 API |
底层架构解析: 两个模型共享相同的 MoE Diffusion Transformer(混合专家扩散变换器)核心——一个双专家系统,其中高噪声专家在早期去噪步骤中处理整体布局,低噪声专家在后期步骤中精修细节。每个专家包含约 14B 参数(总计 27B),采用 Flow Matching(整流流)替代经典的 DDPM 噪声调度,实现更高效的训练收敛。高压缩率 VAE 实现了 64 倍压缩,即使在 1080p 下也能高效生成。
Wan 2.6 擅长创作的内容类型
角色驱动的连载内容
R2V 与多镜头叙事的结合使 Wan 2.6 在需要跨集保持主体一致性的内容中独具优势:
- 品牌吉祥物系列 ——克隆你的吉祥物角色,生成无限场景
- 讲解视频系列 ——在多期教育内容中保持一致的主持人形象
- 社交媒体角色 ——为特定平台打造可识别的个性角色
- 产品演示系列 ——同一主持人在多个视频中展示不同功能
没有其他视频生成器能在无需 LoRA 微调或自定义训练的情况下,跨多次生成保持如此高水平的主体还原度。
多人对话场景
原生音频、唇形同步和多镜头能力的结合,使真正的对话内容成为可能:
- 产品评测对话 ——两个角色自然讨论产品特性
- 访谈式内容 ——主持人与嘉宾拥有独立声音和自然的对话轮次
- 短剧场景 ——以对话驱动的叙事,带有情感和节奏感
- 教育对话 ——师生互动,视觉与音频提示同步呈现
叙事营销与广告
多镜头叙事将原本需要制作团队才能完成的工作转化为一条提示词:
- 产品故事弧线 ——在一次 15 秒的生成中呈现问题、解决方案和效果
- 品牌故事 ——通过叙事展现品牌价值的角色旅程
- 口碑式内容 ——带有自然语音的角色驱动社交证明
- 活动预告 ——具有一致视觉标识的多角度拍摄模拟
高性价比的商业制作
在 WaveSpeed 基准测试中,Wan 2.6 在主流模型中实现了最快的首帧生成时间(TTFF)——同时保持业内最低的每秒成本。这种效率使得高成本模型无法匹配的快速迭代成为可能:
- 规模化 A/B 测试 ——无预算压力地生成数十种创意变体
- 快速原型验证 ——在投入昂贵制作之前可视化概念
- 大批量内容 ——满足需要每日或每周视频产出的社交媒体排期
- 本地化 ——同一内容的多语言版本,配合唇形同步对话
如何使用 Wan 2.6 创作 AI 视频
第一步:选择生成模式
Latiai 上的 Wan 2.6 支持两种核心生成路径:
文生视频 ——详细描述你的场景。支持 720p/1080p,5/10/15 秒,全部 5 种宽高比。最适合:原创内容创作、概念可视化、多镜头叙事和创意探索。
图生视频 ——上传一张静态图片,Wan 2.6 将为其赋予自然的运动。支持 720p/1080p,5/10/15 秒。最适合:产品照片动画、艺术作品激活和人像视频。
第二步:撰写具有电影感的精确提示词
Wan 2.6 对专业电影语言的响应效果远优于随意的描述。按以下层次构建你的提示词:
优质提示词示例:
"A young entrepreneur walks into a modern co-working space carrying a laptop. Camera follows from behind, then cuts to a medium close-up as she sits down and opens the laptop, smiling. Warm natural light from floor-to-ceiling windows. Second shot: overhead view of the laptop screen showing design work. Ambient sound of keyboard clicks and quiet conversation. Professional corporate video style, 16:9, 1080p"
为获得最佳效果,请包含以下要素:
- 带有具体外貌细节的主体描述
- 摄像机运动和镜头类型(推轨、跟踪、特写、俯拍)
- 多镜头结构及明确的场景过渡
- 光照和环境细节
- 音频指令(对话、环境音、音乐风格)
- 宽高比和目标平台
第三步:生成、审查和迭代
选择分辨率(720p 用于草稿,1080p 用于成品)和时长。Wan 2.6 的速度优势意味着你可以快速迭代——在 720p/5s 下测试构图,然后升级到 1080p/15s 输出最终版本。如需编辑和优化,可切换到图生视频来为生成中的特定帧制作动画。
Wan 2.6 与其他 AI 视频生成器的对比
| 特性 | Wan 2.6 | Sora 2 | Kling 2.6 | Veo 3.1 |
|---|---|---|---|---|
| 最大分辨率 | 1080p | 1080p | 1080p | 1080p |
| 最大时长 | 15s | 15s | 10s | 8s |
| Reference-to-Video | 支持(1-3 个视频) | 不支持 | 不支持 | 参考(快速) |
| 多镜头叙事 | 自动分割 | 手动 | 不支持 | 不支持 |
| 原生音频 | 支持 | 支持 | 同步 | 支持 |
| 声音克隆 | 从参考视频提取 | 不支持 | 声音上传 | 不支持 |
| 唇形同步 | 多人 | 基础 | 优秀 | 良好 |
| 物理精确度 | 良好 | 优秀 | 良好 | 最佳 |
| 生成速度 | 最快 TTFF | 中等 | 快 | 中等 |
| 开源基础 | Apache 2.0 | 否 | 否 | 否 |
| 最适合 | 叙事 + R2V | 物理真实感 | 音频同步 | 电影品质 |
选择 Wan 2.6 的场景:需要跨多个视频保持主体一致性、需要多镜头叙事结构,或需要高性价比的大批量制作。R2V 能力在角色驱动内容中无可匹敌。选择 Sora 2 的场景:物理密集型场景,需要逼真的重力、流体动力学和材质交互。选择 Kling 2.6 的场景:音频驱动的内容,需要声音上传和出色的运镜。选择 Veo 3.1 的场景:追求最高电影品质和最逼真的画面输出。
谁在使用 Wan 2.6?
品牌和营销团队
在多个营销活动中生成角色一致的系列品牌内容。R2V 让品牌吉祥物和代言人无需重新拍摄即可保持一致。多镜头叙事能在一次生成中制作广告叙事——问题、解决方案、效果。
社交媒体创作者和代理机构
高效地大批量生产内容。Wan 2.6 的速度和成本优势使平台所需的持续新鲜内容实现每日视频产出。15 秒时长和原生音频使大多数社交格式无需借助额外编辑工具。
电商和产品团队
将产品照片转化为演示视频。使用 R2V 为产品系列克隆一致的主持人。从同一参考素材为不同市场生成带唇形同步对话的本地化版本。
独立电影人和故事创作者
多镜头叙事将单条提示词转化为电影结构化的序列。开源基础(Wan 2.2)支持本地部署,适用于隐私敏感项目。多人对话场景无需演员或场景即可创作真实的叙事内容。
教育者和培训开发者
使用 R2V 在多节课程中保持一致的讲师形象。多镜头能力支持结构化的教学序列——引入、演示、总结——仅需一条提示词。原生音频配合唇形同步,无需录音设备即可制作专业的解说内容。
Wan 2.6 进阶技巧
-
使用电影语言,而非口语化描述 Wan 2.6 基于专业影视数据训练。"Slow dolly-in to a medium close-up, shallow depth of field, warm key light from the left"(缓慢推进至中近景,浅景深,左侧暖色主光)的效果远优于"zoom in on a person"(放大一个人)。
-
用明确的过渡标记构建多镜头提示词 标记你的镜头:"Shot 1: Wide establishing — ... Shot 2: Close-up — ... Shot 3: Over-the-shoulder —"。当镜头边界被明确标记时,模型的场景分割会更加精准。
-
为 R2V 准备干净的参考素材 R2V 在光线充足、主体清晰可见且无遮挡的参考视频上表现最佳。避免杂乱的背景,并确保主体至少部分时间面向镜头。5 秒的干净素材即可满足需求。
-
在 720p 迭代,在 1080p 定稿 使用 720p 和 5 秒时长快速测试概念。构图和运动效果满意后,以 1080p/15s 重新生成制作级输出。此工作流充分利用 Wan 2.6 的速度优势,实现高性价比的探索。
-
指定运动层级 告诉模型什么是主要运动(主体)、次要运动(环境元素),以及什么应该保持静止。"The chef's hands move quickly while the background kitchen stays steady, camera slowly pans right"(厨师的双手快速移动,背景厨房保持稳定,摄像机缓慢向右平移)比交由默认行为处理能产生更可控的输出。
-
在视觉提示词中融入音频指令 在视觉描述旁加入音频线索:"She speaks confidently: 'Welcome to our workspace.' Ambient keyboard sounds and soft background music. Door closes with a gentle click."(她自信地说道:"欢迎来到我们的工作空间。"环境中有键盘敲击声和轻柔的背景音乐。门轻轻关上,发出一声咔哒。)这能引导原生音频生成朝更丰富、更有意图的声音方向发展。
-
结合 R2V 与多镜头功能进行系列制作 上传一次角色参考,然后为不同场景生成多集内容。每次生成都保持主体身份一致的同时创造全新内容——这是连载品牌内容最高效的工作流。
在 Latiai 上体验 Wan 2.6
准备好使用 Reference-to-Video 克隆和多镜头叙事来生成 AI 视频了吗?直接访问 Wan 2.6:
- 文生视频:描述你的多镜头叙事,Wan 2.6 将生成具有电影结构的视频,配备原生音频、唇形同步对话和环境音——最长 15 秒,1080p 分辨率。
- 图生视频:上传一张照片,Wan 2.6 为其赋予自然运动、音频同步和多语言唇形同步支持。
无需下载。无需复杂设置。带原生音频的多镜头 AI 视频,数秒即可完成。
立即生成多镜头 AI 视频
Wan 2.6 解决了长期制约 AI 视频发展的核心问题:一致性和叙事结构。Reference-to-Video 确保你的主体在每次生成中都保持相同的外观和声音。多镜头叙事将单条提示词转化为电影结构化的序列。原生音视频同步彻底消除了后期音频制作的工作流。
基于拥有 27B 参数的开源 Mixture-of-Experts(混合专家)架构构建,在 15 亿个视频和 100 亿张图片上训练,并以业内最快的生成速度和最低的成本交付——Wan 2.6 专为需要制作效率而不牺牲创作自由的创作者而设计。
Reference-to-Video 主体克隆。多镜头叙事。原生音频同步。1080p,15 秒。
为故事创作者打造的开源 AI 视频模型。
Frequently Asked Questions
Start Creating with Wan 2.6 Today
Transform your creative ideas into stunning content. No technical expertise required.
立即开始创作Explore More AI Models
Sora 2 AI 视频生成器 - 分钟级创作电影级视频
告别漫长的视频剪辑等待。Sora 2 在 2 分钟内生成具有完美物理运动和原生音频的专业 AI 视频。立即免费体验。
Kling 2.6 AI 视频生成器 - 原生音频与同步视频创作
创建带有同步对话、音效和环境音的专业 AI 视频,一次生成完成。Kling 2.6 为有真实截止日期的创作者提供生产就绪的效果。
Veo 3.1 AI 视频生成器 - Google DeepMind 电影级视频
使用 Google 最先进的模型创作电影级 AI 视频。Veo 3.1 为电影制作人提供无与伦比的物理模拟、原生音频和专业级 1080p 效果。
Seedance 2 AI 视频生成器 - 双分支音视频联合生成,2K 电影级分辨率
首个在单次神经网络推理中同时生成音频和视频的 AI 视频模型。字节跳动推出的 Seedance 2 融合了 Dual-Branch Diffusion Transformer(双分支扩散变换器)架构、物理感知训练、8+ 语言唇形同步和节拍匹配编舞功能,打造 2K 电影级视频创作体验。