界面新闻记者 | 宋佳楠
2月25日晚间,阿里巴巴全面开源旗下视频生成模型万相2.1。该模型是阿里云通义系列AI模型的重要组成部分,于2025年1月发布。在权威评测集VBench中,其以总分86.22%的成绩大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。
万相2.1采用了自研的高效变分自编码器(VAE)和动态图变换器(DiT)架构,增强了时空上下文建模能力。这种设计使得模型能够更准确地捕捉和模拟现实世界的动态变化,同时通过参数共享机制降低了训练成本。
模型通过将视频划分为多个块(Chunk)并缓存中间特征,避免了传统端到端编解码的复杂性,支持无限长1080P视频的高效生成和处理。
它也是首个支持中文文字生成及中英文文字特效生成的视频生成模型。在指令遵循上,能严格依照镜头移动等指令输出视频,对长文本指令也能准确理解和执行。
此外,该模型能够精准模拟现实世界的物理规律,例如雨滴落在伞上溅起水花、人物运动时的自然过渡等。在处理复杂运动(如花样滑冰、游泳等)时,万相2.1能够保持肢体的协调性和运动轨迹的真实性。
阿里基于Apache 2.0协议将万相2.1的14B和1.3B两个参数规格的全部推理代码和权重全面开源,全球开发者可在 Github、HuggingFace和魔搭社区下载体验。
据界面新闻记者了解,14B模型在指令遵循、复杂运动生成等方面表现突出,1.3B版本能在消费级显卡运行,仅需8.2GB显存就可生成高质量视频,适用于二次模型开发和学术研究,极大降低了使用门槛。
事实上,开源视频生成模型业内已有先例,此前阶跃星辰就开源了全球范围内参数量最大、性能最好的开源视频生成模型阶跃Step-Video-T2V。而阿里的开源,进一步推动了这一趋势。
对AI行业来说,开源可为开发者提供强大的工具,加速视频生成领域的技术创新和应用拓展。目前,国内AI明星公司DeepSeek正在持续开源,百度也已宣布于6月30日起全面开源文心大模型4.5。国外的OpenAI CEO山姆·奥特曼此前承认, “闭源策略站在了错误的一边”,而马斯克的Grok-3则采取了 “有限开源” 模式。
预计未来会有更多企业和团队加入开源行列,推动大模型技术快速传播和普及。