阿里开源版 Sora 势如破竹,成功登顶 Hugging Face 榜单!Wan2.1 轻松超越 DeepSeek-R1

阿里的开源模型向来备受瞩目。在去年 6 月发布的 Qwen 系列于开发者社区中拥有良好的口碑,其中 72B、110B 模型曾多次在 Hugging Face 的开源模型榜单上登顶。而在去年 12 月发布的 DeepSeek-V3 又在当月超越了 Qwen 系列。

截屏2025-03-04 16.05.30.jpg

据开源社区 Hugging Face 的最新榜单显示,刚刚开源一周时间的阿里万相大模型成功登顶模型热榜与模型空间榜两大榜单,将 DeepSeek-R1 甩在身后。目前万相 2.1(Wan2.1)在 Hugging Face 以及魔搭社区的总下载量已然超过百万。此次阿里将 14B 和 1.3B 这两个参数规格进行了开源,并且同时支持文生视频和图生视频任务。

截屏2025-03-04 16.00.26.png

Wan 2.1 简介

Wan 2.1 是阿里巴巴集团通义实验室开发的一套全面且开源的视频基础模型,旨在突破视频生成的技术边界。它基于主流扩散 Transformer 结构构建,通过一系列创新技术,如新颖的时空变分自编码器(VAE)、可扩展的预训练策略、大规模数据构建和自动化评估指标,提升了模型的生成能力、性能和通用性。

该模型包含多个不同参数的版本,如 T2V-1.3B 和 T2V-14B(文本到视频模型)、I2V-14B-720P 和 I2V-14B-480P(图像到视频模型) ,以满足不同用户和应用场景的需求。

GlAdnyjXcAAhXyc.jpeg

Wan 2.1 功能亮点

  • 卓越性能超越同行:在多项基准测试中,Wan 2.1 持续超越现有的开源模型和顶尖商业解决方案,在生成视频的质量、细节和真实感等方面达到业界领先水平。例如在 VBench 排行榜中,以总分 86.22% 的成绩登顶,击败 Sora、HunyuanVideo 等众多知名模型
  • 支持消费级 GPU 运行:T2V-1.3B 版本对硬件要求友好,仅需 8.19GB VRAM,就能在如 RTX 4090 等消费级 GPU 上运行。在 RTX 4090 上,大约 4 分钟可生成 5 秒 480P 视频,其性能甚至可与部分闭源模型相媲美,降低了使用门槛,方便个人开发者和研究者使用。
  • 多种任务全面覆盖:具备强大的多任务处理能力,涵盖文本到视频(T2V)、图像到视频(I2V)、视频编辑、文本到图像(T2I)以及视频到音频(V2A)等功能。用户既可以根据文本描述生成视频,也能将静态图片转化为动态视频,还能对现有视频进行编辑优化,以及实现文本生成图像和为视频自动匹配音频等操作。
  • 视觉文本生成独特优势:是首个支持在视频中生成中文和英文文本的视频模型,且生成的文本具有丰富的特效,能根据场景和载体进行合理变化,并随载体一同运动。无论是特效字体、海报字体,还是真实场景中的文字,都能精准生成,为视频创作增添丰富元素。
  • 复杂运动精准还原:擅长生成包含复杂运动的逼真视频,能够精准展现如人体的旋转、跳跃、舞蹈动作,以及物体的快速移动、场景转换等。像多人跳 hip-hop 时动作的同步、篮球场上球员投篮动作的流畅呈现、小狗在雪地里奔跑时的自然姿态等复杂运动场景,Wan 2.1 都能出色还原。
  • 物理模拟高度真实:可以准确模拟现实世界的物理规律和物体间的真实交互。在视频生成中,能真实展现物体的碰撞、反弹、切割效果,以及液体流动、物体的光影变化等物理现象。例如,模拟透明玻璃杯倾倒后牛奶流出的动态痕迹、草莓入水时与水的相互作用力等,使生成的视频更加贴近现实。
  • 电影级画质呈现:能够生成具有电影质感的视频,具备丰富的纹理和多样的风格化效果。通过调整参数和设置,可实现不同的视觉风格,如复古风、科幻风、写实风等,为用户带来高质量的视觉体验。像模拟无人机穿梭于摩天大楼间的城市夜景视频,能逼真地呈现出复杂的灯光效果和建筑风格,营造出震撼的视觉氛围。
  • 精准遵循长文本指令:对复杂的长文本指令理解能力强,能严格按照文本描述生成视频,确保细节完整。无论是多主体的运动场景,还是复杂的环境构建、氛围营造等要求,Wan 2.1 都能准确把握。例如,根据 「欢乐派对现场,一群多元种族的年轻人在宽敞明亮的客厅中央尽情舞动……」这样的长文本,能生成符合描述的生动视频,人物形象、动作、场景氛围等都能精准呈现。

截屏2025-03-04 16.14.37.jpg

适用场景

  • 广告制作:广告公司可以利用 Wan 2.1 根据产品特点和宣传需求,快速生成具有吸引力的广告视频。如制作电子产品广告时,通过文本描述产品的功能和特点,结合酷炫的特效和场景,生成能够突出产品优势的宣传视频。
  • 短视频创作:个人创作者在短视频平台上创作内容时,使用 Wan 2.1 将创意文本或图片转化为有趣的视频。比如制作美食短视频,输入 「美味蛋糕的制作过程」等文本,就能生成相应的视频,还能为视频添加合适的音乐和文字特效,提升视频质量和吸引力。
  • 影视制作辅助:影视制作团队在前期创意构思和概念验证阶段,借助 Wan 2.1 快速将剧本中的场景可视化。例如,导演可以通过输入剧本片段,生成简单的视频样片,用于评估场景效果和调整拍摄计划,节省时间和成本。
  • 教育教学:教师在制作教学视频时,运用 Wan 2.1 将抽象的知识以生动的视频形式呈现。如在物理教学中,模拟物体的运动和物理现象,帮助学生更好地理解知识点;在语言教学中,生成包含对话场景的视频,营造语言学习环境。
  • 游戏开发:游戏开发者可以利用 Wan 2.1 制作游戏宣传视频、过场动画等。通过输入游戏中的角色、场景和剧情描述,生成精美的视频,用于游戏推广和提升玩家的游戏体验。

image (13).png

Wan 2.1 使用教程

  1. 安装环境准备:首先,确保设备满足运行要求。若使用 T2V-1.3B 模型,消费级 GPU(如 RTX 4090)需准备至少 8.19GB VRAM。然后,克隆代码仓库,在终端输入git clone https://github.com/Wan-Video/Wan2.1.git,并进入项目目录cd Wan2.1。接着,安装依赖项,运行pip install -r requirements.txt,同时确保torch >= 2.4.0
  2. 模型下载:可以使用huggingface-climodelscope-cli下载模型。以huggingface-cli为例,先安装pip install "huggingface_hub[cli]",然后根据所需模型,如下载 T2V-14B 模型,输入huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B。不同模型的下载链接和适用分辨率可参考官方文档,如 I2V-14B-720P、I2V-14B-480P、T2V-1.3B 等模型都有对应的下载方式。
  3. 文本到视频生成
    • 无提示扩展的单 GPU 推理:在终端运行python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "具体文本描述",其中prompt后输入具体的视频生成描述。若使用 T2V-1.3B 模型且遇到内存不足问题,可添加--offload_model True --t5_cpu参数,并根据性能调整--sample_shift(8 - 12)和--sample_guide_scale 6
    • 无提示扩展的多 GPU 推理(FSDP + xDiT USP):先安装xfuser,运行pip install "xfuser>=0.4.1",然后使用torchrun进行多 GPU 推理,如torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "具体文本描述"
    • 使用提示扩展:若使用 Dashscope API 扩展提示,需提前申请dashscope.api_key,并配置环境变量DASH_API_KEY。如运行DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "具体文本描述" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'。若使用本地模型扩展,默认使用 HuggingFace 上的 Qwen 模型,可根据 GPU 内存选择合适的模型,如Qwen/Qwen2.5-14B-Instruct等,并通过--prompt_extend_model指定,如python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "具体文本描述" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'
    • 运行本地 gradio:进入gradio目录,若使用 Dashscope API 扩展提示,运行DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B;若使用本地模型扩展提示,运行python t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B
  4. 图像到视频生成:与文本到视频生成类似,也分为有无提示扩展步骤。无提示扩展时,单 GPU 推理运行python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --prompt "具体文本描述",注意size参数根据输入图像的长宽比确定。多 GPU 推理时,先安装xfuser,再运行torchrun --nproc_per_node=8 generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "具体文本描述"。使用提示扩展时,参考文本到视频生成的提示扩展方法,根据需求选择使用 Dashscope API 或本地模型进行扩展。运行本地 gradio 时,根据使用的模型版本,在gradio目录下运行相应命令,如使用 720P 模型且用 Dashscope API 扩展提示,运行DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_720p ./Wan2.1-I2V-14B-720P
  5. 文本到图像生成:无提示扩展时,单 GPU 推理运行python generate.py --task t2i-14B --size 1024*1024 --ckpt_dir ./Wan2.1-T2V-14B --prompt '具体文本描述';多 GPU 推理运行torchrun --nproc_per_node=8 generate.py --dit_fsdp --t5_fsdp --ulysses_size 8 --base_seed 0 --frame_num 1 --task t2i-14B --size 1024*1024 --prompt '具体文本描述' --ckpt_dir ./Wan2.1-T2V-14B。有提示扩展时,单 GPU 推理添加--use_prompt_extend参数,多 GPU 推理同样添加该参数进行相应操作。

UTF-8''logo (1).png

结语

在 AI 技术蓬勃发展的当下,视频生成领域不断迎来创新突破。阿里推出的 Wan 2.1 开源视频生成模型备受瞩目,它不仅在性能上超越诸多同类产品,还为开发者和创作者提供了强大且易用的工具,引发了行业广泛关注。

如果你已被 Wan 2.1 的魅力所吸引,不妨即刻尝试使用,在创作中感受它的独特优势。点赞、评论分享你的奇妙体验,与我们一同见证 AI 视频生成技术迈向新高度。持续关注 Wan 2.1,期待它在未来释放更多潜能,带来更多超乎想象的惊喜,重塑我们对视频创作的认知。

猜你喜欢

小辣椒3美国伦理:在科技与道德之间的智慧博弈
小辣椒3美国伦理:在科技与道德之间的智慧博弈

小辣椒3美国伦理者,乃当下信息科技迅猛而至之际,所引发之伦理思考。小辣椒3为一智能手机,然其背后涉及诸多伦理争议,足见科技与社会行为

欧美大片ppt免费ppt:迈入游戏的全新视界,释放玩家的无限想象力
欧美大片ppt免费ppt:迈入游戏的全新视界,释放玩家的无限想象力

在当今这个数字化时代,游戏早已成为我们生活的重要组成部分。欧美大片以其丰富的故事情节、精致的画面和引人入胜的音效,吸引着全球数以亿

伟大的妈妈35节阅读答案:深度解析母爱的伟大与无私,怎样理解母亲的牺牲与奉献?
伟大的妈妈35节阅读答案:深度解析母爱的伟大与无私,怎样理解母亲的牺牲与奉献?

母亲,这个词听上去平常却又分外沉重。回想起自己的成长历程,无数个温暖的瞬间都与母亲的付出密不可分。伟大的妈妈不仅仅是家庭的支柱,更

法国满天星《勤务秘书》:为白领职场提供全新支持和互动平台
法国满天星《勤务秘书》:为白领职场提供全新支持和互动平台

法国满天星《勤务秘书》,一部关乎职场小助手的佳作,着眼于现代白领之工作生活,旨在为其提供诸多便捷之服务。此书将助力职场人士更高效地

卖保险套的女销售3:她的故事如何改变了性教育的认知和态度
卖保险套的女销售3:她的故事如何改变了性教育的认知和态度

在当今社会,性教育逐渐被人们所重视。尤其是在年轻人中,如何传播健康的性知识成为了一个重要课题。在这个关系到人们身体健康与心理发展的

在情趣店上班被爆CAO翻了:情趣产业幕后故事引发社会热议
在情趣店上班被爆CAO翻了:情趣产业幕后故事引发社会热议

在情趣店上班被爆CAO翻了,此事传出之后,引发社会广泛讨论,众人皆对此现象感到震惊。情趣店作为满足特殊需求之场所,背后隐藏着多少不为

中字hd丈夫的下属的成就:在职场上展现卓越领导力与团队协作能力
中字hd丈夫的下属的成就:在职场上展现卓越领导力与团队协作能力

在现代职场环境中,领导者的影响力往往超越个人的成就,展现团队的成功才是衡量杰出管理者的重要标准。中字hd的丈夫作为行业中的佼佼者,其

外国大片又大又好看的ppt:探索那些令人叹为观止的游戏视觉盛宴与创意设计
外国大片又大又好看的ppt:探索那些令人叹为观止的游戏视觉盛宴与创意设计

电子游戏作为一种新兴的艺术形式,近年来迅速崛起,成为全球文化现象的重要组成部分。从早期的像素艺术到如今的高清3D画面,游戏的视觉效果

《老公请部长家里吃饭》:一场游戏中的策略与人际关系的较量,探索社交游戏的新玩法
《老公请部长家里吃饭》:一场游戏中的策略与人际关系的较量,探索社交游戏的新玩法

在当今快节奏的生活中,社交游戏已经成为一种新兴的娱乐方式,尤其是那些能够引发思考与交流的游戏更是备受玩家青睐。《老公请部长家里吃饭

亚洲经典一区二区三区区别小说:探索游戏世界中的策略与情感交织(沉浸式体验与游戏设计的深度探讨)
亚洲经典一区二区三区区别小说:探索游戏世界中的策略与情感交织(沉浸式体验与游戏设计的深度探讨)

在今天的数字时代,游戏不仅仅是消遣娱乐的工具,它更是一个深蕴文化和情感的载体。从简单的图形和音效演变为如今复杂的多维度世界,游戏的