365文库

阿里万相视频大模型宣布开源

2025-02-26 14:51 头条推荐来源：365文库

下载成Word

　　2月25日晚间，阿里巴巴传来重磅消息，阿里云视频生成大模型万相2.1（Wan）正式开源。此次开源采用了最为宽松的Apache2.0协议，将14B和1.3B两个参数规格的全部推理代码和权重毫无保留地开放出来，并且同时支持文生视频和图生视频任务。全球的开发者们现在可以在Github、HuggingFace、魔搭社区轻松下载体验，这一举措无疑为AI视频领域注入了新的活力。
　　通义万相作为阿里云通义系列AI绘画创作大模型，早在2023年7月7日就已正式上线，凭借其出色的图像生成能力，为图片创作提供了有力辅助。而在今年1月初，通义万相视频生成模型更是升级至2.1版，在权威评测榜单VBench中强势登顶，展现出了卓越的性能。
　　此次开源的万相模型，两个版本各有千秋。14B版本的万相模型在多个关键领域都展现出了令人瞩目的能力。在指令遵循方面，它能够精准理解中英文长文本指令，无论是复杂的场景切换，还是角色之间的互动，都能准确还原。比如在创作一个科幻题材的视频时，它能依据“在未来城市中，超级英雄与反派激烈战斗，城市建筑在战斗中不断崩塌”这样复杂的指令，生成符合要求的精彩视频片段。在复杂运动生成上，像旋转、跳跃、转身、翻滚等复杂的人物肢体运动，它都能稳定展现，让视频中的人物动作流畅自然。在物理建模时，碰撞、反弹、切割等复杂真实物理场景也不在话下，比如模拟汽车碰撞的场景，能真实地呈现出汽车碰撞后的变形、碎片飞溅等细节。在文字视频生成方面同样表现突出，在权威评测集Vbench中，万相2.1以总分86.22%的成绩，大幅超越Sora、Luma、Pika等国内外模型，稳居榜首。这得益于它独创的高效VAE和DiT架构，极大增强了时空上下文建模能力，不仅实现了长达1080P的视频高效编解码，还首次实现了中文文字视频的生成，为中文内容创作带来了新的可能。
　　1.3B版本万相模型同样表现出色，测试结果不仅超过了更大尺寸的开源模型，甚至和一些闭源模型结果相近。更值得一提的是，它能在消费级显卡上运行，仅需8.2GB显存就可以生成480P视频，对于二次模型开发和学术研究来说，极大地降低了门槛和成本。这使得更多的开发者，即使没有高端的硬件设备，也能够基于万相模型进行开发和研究，促进了AI视频技术的普及和创新。
　　从应用场景来看，万相大模型有着广泛的应用前景。在影视创作领域，它可以帮助创作者快速生成创意视频片段，为剧本创作提供可视化参考。比如导演在构思新电影时，利用万相模型，根据剧本中的文字描述，快速生成一些场景小样，帮助团队更好地理解剧情和画面，提高创作效率。在动画设计中，能高效生成动画素材，丰富动画的表现形式，无论是角色的动作设计，还是场景的构建，都能提供更多的创意和选择。在广告设计里，可根据广告主题迅速生成吸睛的视频广告，提升广告制作效率。例如，一家饮料公司想要制作一个新的广告，通过万相模型，输入“清爽夏日，畅饮果汁”的主题，就能快速生成一些创意视频，从中选择合适的进行修改完善，大大缩短了广告制作周期。
　　自2023年开始，阿里云就坚定大模型开源路线，相继开源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型，囊括了从0.5B到110B等全尺寸，大语言、多模态、数学和代码等全模态，多次登上国内外权威榜单，阿里云千问（Qwen）衍生模型数量已超10万个，成为全球最大的AI模型家族。而万相的开源，更是让阿里云实现了全模态、全尺寸大模型的开源，进一步推动了AI技术的发展和创新。
　　此次阿里万相视频大模型的开源，无疑将吸引全球开发者基于其进行创新应用开发，进一步推动AI视频技术在各行业的普及与发展。一方面，开发者可以基于万相模型开发出更多个性化的视频创作工具，满足不同用户的需求；另一方面，也可能催生出一些新的视频应用场景，比如在教育领域，制作生动有趣的教学视频；在电商领域，为商品展示提供更丰富的视频形式。这也让我们对未来AI视频领域的创新充满期待，相信在开源的力量下，万相大模型将催生出更多令人惊喜的应用成果，让AI视频技术更好地服务于人们的生活和工作。

热门文档