365文库
登录
注册

阿里万相视频大模型宣布开源

2025-02-26 14:51    头条推荐    来源:365文库
下载Word
下载成Word


  2月25日晚间,阿里巴巴传来重磅消息,阿里云视频生成大模型万相2.1(Wan)正式开源。此次开源采用了最为宽松的Apache2.0协议,将14B和1.3B两个参数规格的全部推理代码和权重毫无保留地开放出来,并且同时支持文生视频和图生视频任务。全球的开发者们现在可以在Github、HuggingFace、魔搭社区轻松下载体验,这一举措无疑为AI视频领域注入了新的活力。
  通义万相作为阿里云通义系列AI绘画创作大模型,早在2023年7月7日就已正式上线,凭借其出色的图像生成能力,为图片创作提供了有力辅助。而在今年1月初,通义万相视频生成模型更是升级至2.1版,在权威评测榜单VBench中强势登顶,展现出了卓越的性能。
  此次开源的万相模型,两个版本各有千秋。14B版本的万相模型在多个关键领域都展现出了令人瞩目的能力。在指令遵循方面,它能够精准理解中英文长文本指令,无论是复杂的场景切换,还是角色之间的互动,都能准确还原。比如在创作一个科幻题材的视频时,它能依据“在未来城市中,超级英雄与反派激烈战斗,城市建筑在战斗中不断崩塌”这样复杂的指令,生成符合要求的精彩视频片段。在复杂运动生成上,像旋转、跳跃、转身、翻滚等复杂的人物肢体运动,它都能稳定展现,让视频中的人物动作流畅自然。在物理建模时,碰撞、反弹、切割等复杂真实物理场景也不在话下,比如模拟汽车碰撞的场景,能真实地呈现出汽车碰撞后的变形、碎片飞溅等细节。在文字视频生成方面同样表现突出,在权威评测集Vbench中,万相2.1以总分86.22%的成绩,大幅超越Sora、Luma、Pika等国内外模型,稳居榜首。这得益于它独创的高效VAE和DiT架构,极大增强了时空上下文建模能力,不仅实现了长达1080P的视频高效编解码,还首次实现了中文文字视频的生成,为中文内容创作带来了新的可能。
  1.3B版本万相模型同样表现出色,测试结果不仅超过了更大尺寸的开源模型,甚至和一些闭源模型结果相近。更值得一提的是,它能在消费级显卡上运行,仅需8.2GB显存就可以生成480P视频,对于二次模型开发和学术研究来说,极大地降低了门槛和成本。这使得更多的开发者,即使没有高端的硬件设备,也能够基于万相模型进行开发和研究,促进了AI视频技术的普及和创新。
  从应用场景来看,万相大模型有着广泛的应用前景。在影视创作领域,它可以帮助创作者快速生成创意视频片段,为剧本创作提供可视化参考。比如导演在构思新电影时,利用万相模型,根据剧本中的文字描述,快速生成一些场景小样,帮助团队更好地理解剧情和画面,提高创作效率。在动画设计中,能高效生成动画素材,丰富动画的表现形式,无论是角色的动作设计,还是场景的构建,都能提供更多的创意和选择。在广告设计里,可根据广告主题迅速生成吸睛的视频广告,提升广告制作效率。例如,一家饮料公司想要制作一个新的广告,通过万相模型,输入“清爽夏日,畅饮果汁”的主题,就能快速生成一些创意视频,从中选择合适的进行修改完善,大大缩短了广告制作周期。
  自2023年开始,阿里云就坚定大模型开源路线,相继开源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型,囊括了从0.5B到110B等全尺寸,大语言、多模态、数学和代码等全模态,多次登上国内外权威榜单,阿里云千问(Qwen)衍生模型数量已超10万个,成为全球最大的AI模型家族。而万相的开源,更是让阿里云实现了全模态、全尺寸大模型的开源,进一步推动了AI技术的发展和创新。
  此次阿里万相视频大模型的开源,无疑将吸引全球开发者基于其进行创新应用开发,进一步推动AI视频技术在各行业的普及与发展。一方面,开发者可以基于万相模型开发出更多个性化的视频创作工具,满足不同用户的需求;另一方面,也可能催生出一些新的视频应用场景,比如在教育领域,制作生动有趣的教学视频;在电商领域,为商品展示提供更丰富的视频形式。这也让我们对未来AI视频领域的创新充满期待,相信在开源的力量下,万相大模型将催生出更多令人惊喜的应用成果,让AI视频技术更好地服务于人们的生活和工作。

tj