搜索
房产
装修
汽车
婚嫁
健康
理财
旅游
美食
跳蚤
二手房
租房
招聘
二手车
教育
茶座
我要买房
买东西
装修家居
交友
职场
生活
网购
亲子
情感
龙城车友
找美食
谈婚论嫁
美女
兴趣
八卦
宠物
手机
打印 上一主题 下一主题

阿里视频生成大模型万相2.1开源!效果超Sora,消费级显卡就能跑

[复制链接]
查看: 20|回复: 0

19万

主题

19万

帖子

58万

积分

论坛元老

Rank: 8Rank: 8

积分
587892
跳转到指定楼层
楼主
发表于 2025-8-1 19:14 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
2月27日消息,大模型开源的风吹到了视频生成大模型。阿里云日前放出重磅消息:万相,开源!
阿里云视频生成大模型万相2.1(Wan)正式开源,此次开源采用Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace、魔搭社区下载体验。
从2023年开始,阿里云就坚定大模型开源路线,其千问(Qwen)衍生模型数量已超过10万个。随着万相的开源,阿里云实现了全模态、全尺寸的开源。
四个开源模型
此次开源共有四个模型,文生和图生各两个,两个参数版本。两个文生视频模型分别是1.3B和14B两个规格;两个图生视频模型都是14B,分辨率一个480P一个720P。
14B版本万相模型:在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集Vbench中,万相2.1以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。
1.3B版本万相模型:不仅超过了更大尺寸的开源模型,甚至还和一些闭源的模型结果接近,同时能在消费级显卡运行,仅需8.2GB显存就可以生成480P视频,适用于二次模型开发和学术研究。
有用户表示,1.3B的万象模型在RTX4090上跑一条5秒钟的480P视频的时间大概只要4分钟。
阿里云特别强调,万相2.1(Wan)大模型是首个具备支持中文文字生成能力,且同时支持中英文文字特效生成的视频生成模型。
实验结果显示,在运动质量、视觉质量、风格和多目标等 14 个主要维度和 26 个子维度测试中,万相表现出色,并且斩获 5 项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能稳定呈现人物的旋转、跳跃等高难度动作,并逼真模拟物体碰撞、反弹和切割等真实物理效果。
良好表现的背后,是基于主流的DiT和线性噪声轨迹Flow Matching范式,万相大模型通过一系列技术创新实现了生成能力的重大进步。包括自研高效的因果3D VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标,这些创新共同提升了模型的最终性能表现。
阿里展示了诸多万相大模型生成的视频,大家看看效果:
开源地址:
Github: Wan-Video
HuggingFace: Wan-AI
魔搭社区:organization/Wan-AI
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2006-2014 oopz大明星网,男女明星图片,明星八卦新闻,明星个人资料大全 版权所有 法律顾问:高律师 客服电话:0791-88289918
技术支持:迪恩网络科技公司  Powered by Discuz! X3.2
快速回复 返回顶部 返回列表