阿里开源最强视频大模型 性能干翻Sora 8G显卡就能跑

昨夜,阿里云视觉生成基座模型万相2.1(Wan)宣布开源!万相2.1共有两个参数规模,140亿参数模型适用于对生成效果要求更高的专业人士,13亿参数模型生成速度较快且能兼容所有消费级GPU,两个模型的全部推理代码和权重已全部开源。

综合来看,万相2.1的主要优势集中于以下五点:SOTA性能:万相2.1在多个基准测试中优于现有的开源模型和商业解决方案,140亿参数专业版万相模型在权威评测集VBench中,以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,居于榜首。

支持消费级GPU:13亿参数模型仅需8.2GB显存就能生成480P视频,可兼容几乎所有消费级GPU,约4分钟内(未使用量化等优化技术)在RTX 4090上生成5秒的480P视频。多项任务:万相2.1同时支持文生视频、图生视频、视频编辑、文生图和视频生音频****视觉文本生成:万相2.1是首个能够生成中英文文本的视频模型,无需外部插件就能生成文字。

强大的视频VAE:Wan-VAE提供卓越的效率和性能,可对任意长度的1080P视频进行编码和解码,同时保留时间信息。

万相系列模型的研发团队基于运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度进行了模型性能评估,该模型实现5项第一,万相系列模型能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;还能还原碰撞、反弹、切割等复杂真实物理场景。

官方Demo中“熊猫用滑板炫技”的视频,展示了一只熊猫连续完成多个高难度动作:

阿里云通义实验室的研究人员昨夜23点直播介绍了万相2.1的模型及技术细节。

此外,阿里通义官方文章还提到,万相2.1的开源,标志着阿里云实现了全模态、全尺寸的开源。

目前,万相2.1支持访问通义官网在线体验或者在Github、HuggingFace、魔搭社区下载进行本地部署体验。

通义官网体验地址:https://tongyi.aliyun.com/wanxiang/

Github: https://github.com/Wan-Video/Wan2.1

HuggingFace:https://huggingface.co/spaces/Wan-AI/Wan2.1魔搭社区:https://modelscope.cn/studios/Wan-AI/Wan-2.1**一、生成能力全方位开挂,文字、特效、复杂运动都在行**

在生成能力方面,万相2.1可以还原复杂运动表现、遵循物理规律、影院级别画质、具备文字生成和视觉特效制作能力

万相2.1支持生成走路、吃饭等基本的日常运动,还能还原复杂的旋转、跳跃、转身跳舞以及击剑、体操等体育运动类的动作。

此外,其能在遵循物理世界规律的前提下,还原重力、碰撞、反弹、切割等物理场景,并生成万物生长等有创意的视频。

在画质方面,万相2.1生成的视频达到影院级别画质,同时理解多语言、长文本指令,呈现角色的互动。

同时,万相2.1是首次在开源模型中支持中英文文字渲染,中英文艺术字生成。

阿里云还公开了多个万相2.1生成视频的Demo。

以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。

不过,纸上福字左上角的一点并没有书写过程,而是突然在视频后期出现。

纪实摄影风格,低空追踪视角,一辆宝马M3在蜿蜒的山路上疾驰,车轮扬起滚滚尘土云。高速摄像机定格每个惊险过弯瞬间,展现车辆极致的操控性能。背景是连绵起伏的山脉和蓝天。画面充满动感,轮胎与地面摩擦产生的烟雾四散。中景,运动模糊效果,强调速度感。

可以看到,视频镜头随着汽车的漂移加速,捕捉到了每一个画面,并且在漂移时路边还有与地面摩擦飞扬的尘土。

微观摄影,珊瑚管虫和霓虹刺鳍鱼在五彩斑斓的海底世界中游弋。珊瑚管虫色彩鲜艳,触手轻轻摇曳,仿佛在水中舞蹈;霓虹刺鳍鱼身体闪耀着荧光,快速穿梭于珊瑚之间。画面充满奇幻视觉效果,真实自然,4k高清画质,展现海底世界的奇妙与美丽。近景特写,水下环境细节丰富。

整个画面色彩鲜艳,对提示词中的细节基本都表现到了。

中国古典风格的动画角色,一个身穿淡紫色汉服的女孩站在樱花树下。她有着大大的眼睛和精致的五官,头发上装饰着粉色的花朵。女孩表情温柔,眼神中带着一丝忧郁,仿佛在思考什么。背景是朦胧的古建筑轮廓,花瓣在空中轻轻飘落,营造出一种宁静而梦幻的氛围。近景特写镜头,强调女孩的面部表情和细腻的光影效果。

视频对“眼神中带着一丝忧郁,仿佛在思考什么”这类复杂的指令,也在女孩的眼神中得到了呈现。

二、优于其他开闭源模型,可兼容消费级显卡

为了评估万相2.1的性能,研发人员基于1035个内部提示集,在14个主要维度和26个子维度上进行了测试,然后通过对每个维度的得分进行加权计算来计算总分,其中利用了匹配过程中人类偏好得出的权重。详细结果如下表所示:

研发人员还对文生视频、图生视频以及模型在不同GPU上的计算效率进行了评估。

文生视频的评估结果:

图生视频的评估结果:

其结果显示,万相2.1均优于其他开源、闭源模型。

不同GPU上的计算效率:

可以看到,13亿参数模型可兼容消费级显卡,并实现较快的生成速度。

三、模型性能提升大杀器:3D VAE、可扩展预训练策略、大规模数据链路构建……

基于主流的DiT和线性噪声轨迹Flow Matching范式,万相2.1基于自研因果3D VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标提升了模型最终性能表现。

VAE是视频生成领域广泛使用的模块,可以使得视频模型在接近无损情况下有效降低资源占用。

在算法设计上,万相基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等。以3D VAE为例,为了高效支持任意长度视频的编码和解码,万相在3D VAE的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程,实现了无限长1080P视频的高效编解码。

此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了29%的推理时内存占用。

万相2.1模型架构基于主流的视频DiT结构,通过Full Attention机制确保长时程时空依赖的有效建模,实现时空一致的视频生成。

采样策略上,模型的整体训练则采用了线性噪声轨迹的流匹配(Flow Matching)方法。如模型架构图所示,模型首先使用多语言umT5编码器对输入文本进行语义编码,并通过逐层的交叉注意力层,将文本特征向量注入到每个Transformer Block的特征空间,实现细粒度的语义对齐。

此外,研发人员通过一组在所有Transformer Block中共享参数的MLP,将输入的时间步特征T映射为模型中AdaLN层的可学习缩放与偏置参数。在相同参数规模下,这种共享时间步特征映射层参数的方法在保持模型能力同时可以显著降低参数和计算量。

数据方面,研究人员整理并去重了一个包含大量图像和视频数据的候选数据集。在数据整理过程中,其设计了四步数据清理流程,重点关注基本维度、视觉质量和运动质量。通过强大的数据处理流程快速获得高质量、多样化、大规模的图像和视频训练集。

训练阶段,对于文本、视频编码模块,研究人员使用DP和FSDP组合的分布式策略;对于DiT模块采用DP、FSDP、RingAttention、Ulysses混合的并行策略。

基于万相2.1模型参数量较小和长序列带来的计算量较大的特征,结合集群计算性能和通信带宽采用FSDP切分模型,并在FSDP外嵌套DP提升多机拓展性,FSDP和DP的通信均能够完全被计算掩盖。

为了切分长序列训练下的Activation,DiT部分使用了Context Parallelism (CP) 对序列维度进行切分,并使用外层RingAttention、内层Ulysses的2D CP的方案减少CP通信开销。

此外,为了提升端到端整体效率,在文本、视频编码和DiT模块间进行高效策略切换避免计算冗余。具体来说,文本、视频编码模块每个设备读不同数据,在进入DiT之前,通过循环广播方式将不同设备上的数据同步,保证CP组里中数据一样。

在推理阶段,为了使用多卡减少生成单个视频的延迟,选择CP来进行分布式加速。此外,当模型较大时,还需要进行模型切分。

一方面,模型切分策略时,单卡显存不足时必须考虑模型切分。鉴于序列长度通常较长,与张量并行(TP)相比,FSDP的通信开销更小,并且可以被计算掩盖。因此,研究人员选择FSDP方法进行模型切分(注意:这里仅做切分权重,而不做数据并行);另一方面采用序列并行策略:采用与训练阶段相同的2D CP方法:外层(跨机器)使用RingAttention,内层(机器内)使用Ulysses。

在万相2.1 140亿参数模型上,使用FSDP和2D CP的组合方法,在多卡上具有如下图所示的近线性加速:

显存优化方面,研究人员采用分层的显存优化策略,选择一些层进行Offload,其他层根据不同算子计算量和显存占用的分析使用细粒度Gradient Checkpointing(GC)进一步优化Activation显存。最后利用PyTorch显存管理机制,解决显存碎片问题。

在训练稳定性方面,万相2.1借助于阿里云训练集群的智能化调度、慢机检测以及自愈能力,在训练过程中可以自动识别故障节点并快速重启任务,平均重启时间为39秒,重启成功率超过98.23%。

结语:开启全模态开源新时代

2023年8月,阿里云率先开源Qwen模型,正式拉开了开源大模型的序幕。随后,Qwen1.5、Qwen2、Qwen2.5等四代模型相继开源,覆盖了从0.5B到110B的全尺寸范围,涵盖大语言、多模态等领域。目前其千问(Qwen)衍生模型数量已超过10万个。其官方文章显示,随着万相的开源,阿里云实现了全模态、全尺寸的开源。

从大语言模型到视觉生成模型,从基础模型到多样化的衍生模型,开源生态的发展正不断被注入强大的动力。