阿里开源版 Sora 势如破竹，成功登顶 Hugging Face 榜单！Wan2.1 轻松超越 DeepSeek-R1-梦之都

阿里的开源模型向来备受瞩目。在去年 6 月发布的 Qwen 系列于开发者社区中拥有良好的口碑，其中 72B、110B 模型曾多次在 Hugging Face 的开源模型榜单上登顶。而在去年 12 月发布的 DeepSeek-V3 又在当月超越了 Qwen 系列。

截屏2025-03-04 16.05.30.jpg

据开源社区 Hugging Face 的最新榜单显示，刚刚开源一周时间的阿里万相大模型成功登顶模型热榜与模型空间榜两大榜单，将 DeepSeek-R1 甩在身后。目前万相 2.1（Wan2.1）在 Hugging Face 以及魔搭社区的总下载量已然超过百万。此次阿里将 14B 和 1.3B 这两个参数规格进行了开源，并且同时支持文生视频和图生视频任务。

截屏2025-03-04 16.00.26.png

Wan 2.1 简介

Wan 2.1 是阿里巴巴集团通义实验室开发的一套全面且开源的视频基础模型，旨在突破视频生成的技术边界。它基于主流扩散 Transformer 结构构建，通过一系列创新技术，如新颖的时空变分自编码器（VAE）、可扩展的预训练策略、大规模数据构建和自动化评估指标，提升了模型的生成能力、性能和通用性。

该模型包含多个不同参数的版本，如 T2V-1.3B 和 T2V-14B（文本到视频模型）、I2V-14B-720P 和 I2V-14B-480P（图像到视频模型），以满足不同用户和应用场景的需求。

Wan 2.1 功能亮点

卓越性能超越同行：在多项基准测试中，Wan 2.1 持续超越现有的开源模型和顶尖商业解决方案，在生成视频的质量、细节和真实感等方面达到业界领先水平。例如在 VBench 排行榜中，以总分 86.22% 的成绩登顶，击败 Sora、HunyuanVideo 等众多知名模型。
支持消费级 GPU 运行：T2V-1.3B 版本对硬件要求友好，仅需 8.19GB VRAM，就能在如 RTX 4090 等消费级 GPU 上运行。在 RTX 4090 上，大约 4 分钟可生成 5 秒 480P 视频，其性能甚至可与部分闭源模型相媲美，降低了使用门槛，方便个人开发者和研究者使用。
多种任务全面覆盖：具备强大的多任务处理能力，涵盖文本到视频（T2V）、图像到视频（I2V）、视频编辑、文本到图像（T2I）以及视频到音频（V2A）等功能。用户既可以根据文本描述生成视频，也能将静态图片转化为动态视频，还能对现有视频进行编辑优化，以及实现文本生成图像和为视频自动匹配音频等操作。
视觉文本生成独特优势：是首个支持在视频中生成中文和英文文本的视频模型，且生成的文本具有丰富的特效，能根据场景和载体进行合理变化，并随载体一同运动。无论是特效字体、海报字体，还是真实场景中的文字，都能精准生成，为视频创作增添丰富元素。
复杂运动精准还原：擅长生成包含复杂运动的逼真视频，能够精准展现如人体的旋转、跳跃、舞蹈动作，以及物体的快速移动、场景转换等。像多人跳 hip-hop 时动作的同步、篮球场上球员投篮动作的流畅呈现、小狗在雪地里奔跑时的自然姿态等复杂运动场景，Wan 2.1 都能出色还原。
物理模拟高度真实：可以准确模拟现实世界的物理规律和物体间的真实交互。在视频生成中，能真实展现物体的碰撞、反弹、切割效果，以及液体流动、物体的光影变化等物理现象。例如，模拟透明玻璃杯倾倒后牛奶流出的动态痕迹、草莓入水时与水的相互作用力等，使生成的视频更加贴近现实。
电影级画质呈现：能够生成具有电影质感的视频，具备丰富的纹理和多样的风格化效果。通过调整参数和设置，可实现不同的视觉风格，如复古风、科幻风、写实风等，为用户带来高质量的视觉体验。像模拟无人机穿梭于摩天大楼间的城市夜景视频，能逼真地呈现出复杂的灯光效果和建筑风格，营造出震撼的视觉氛围。
精准遵循长文本指令：对复杂的长文本指令理解能力强，能严格按照文本描述生成视频，确保细节完整。无论是多主体的运动场景，还是复杂的环境构建、氛围营造等要求，Wan 2.1 都能准确把握。例如，根据「欢乐派对现场，一群多元种族的年轻人在宽敞明亮的客厅中央尽情舞动……」这样的长文本，能生成符合描述的生动视频，人物形象、动作、场景氛围等都能精准呈现。

截屏2025-03-04 16.14.37.jpg

适用场景

广告制作：广告公司可以利用 Wan 2.1 根据产品特点和宣传需求，快速生成具有吸引力的广告视频。如制作电子产品广告时，通过文本描述产品的功能和特点，结合酷炫的特效和场景，生成能够突出产品优势的宣传视频。
短视频创作：个人创作者在短视频平台上创作内容时，使用 Wan 2.1 将创意文本或图片转化为有趣的视频。比如制作美食短视频，输入「美味蛋糕的制作过程」等文本，就能生成相应的视频，还能为视频添加合适的音乐和文字特效，提升视频质量和吸引力。
影视制作辅助：影视制作团队在前期创意构思和概念验证阶段，借助 Wan 2.1 快速将剧本中的场景可视化。例如，导演可以通过输入剧本片段，生成简单的视频样片，用于评估场景效果和调整拍摄计划，节省时间和成本。
教育教学：教师在制作教学视频时，运用 Wan 2.1 将抽象的知识以生动的视频形式呈现。如在物理教学中，模拟物体的运动和物理现象，帮助学生更好地理解知识点；在语言教学中，生成包含对话场景的视频，营造语言学习环境。
游戏开发：游戏开发者可以利用 Wan 2.1 制作游戏宣传视频、过场动画等。通过输入游戏中的角色、场景和剧情描述，生成精美的视频，用于游戏推广和提升玩家的游戏体验。

image (13).png

Wan 2.1 使用教程

安装环境准备：首先，确保设备满足运行要求。若使用 T2V-1.3B 模型，消费级 GPU（如 RTX 4090）需准备至少 8.19GB VRAM。然后，克隆代码仓库，在终端输入git clone https://github.com/Wan-Video/Wan2.1.git，并进入项目目录cd Wan2.1。接着，安装依赖项，运行pip install -r requirements.txt，同时确保torch >= 2.4.0。
模型下载：可以使用huggingface-cli或modelscope-cli下载模型。以huggingface-cli为例，先安装pip install "huggingface_hub[cli]"，然后根据所需模型，如下载 T2V-14B 模型，输入huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B。不同模型的下载链接和适用分辨率可参考官方文档，如 I2V-14B-720P、I2V-14B-480P、T2V-1.3B 等模型都有对应的下载方式。
文本到视频生成
- 无提示扩展的单 GPU 推理：在终端运行python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "具体文本描述"，其中prompt后输入具体的视频生成描述。若使用 T2V-1.3B 模型且遇到内存不足问题，可添加--offload_model True --t5_cpu参数，并根据性能调整--sample_shift（8 - 12）和--sample_guide_scale 6。
- 无提示扩展的多 GPU 推理（FSDP + xDiT USP）：先安装xfuser，运行pip install "xfuser>=0.4.1"，然后使用torchrun进行多 GPU 推理，如torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "具体文本描述"。
- 使用提示扩展：若使用 Dashscope API 扩展提示，需提前申请dashscope.api_key，并配置环境变量DASH_API_KEY。如运行DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "具体文本描述" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'。若使用本地模型扩展，默认使用 HuggingFace 上的 Qwen 模型，可根据 GPU 内存选择合适的模型，如Qwen/Qwen2.5-14B-Instruct等，并通过--prompt_extend_model指定，如python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "具体文本描述" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'。
- 运行本地 gradio：进入gradio目录，若使用 Dashscope API 扩展提示，运行DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B；若使用本地模型扩展提示，运行python t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B。
图像到视频生成：与文本到视频生成类似，也分为有无提示扩展步骤。无提示扩展时，单 GPU 推理运行python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --prompt "具体文本描述"，注意size参数根据输入图像的长宽比确定。多 GPU 推理时，先安装xfuser，再运行torchrun --nproc_per_node=8 generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "具体文本描述"。使用提示扩展时，参考文本到视频生成的提示扩展方法，根据需求选择使用 Dashscope API 或本地模型进行扩展。运行本地 gradio 时，根据使用的模型版本，在gradio目录下运行相应命令，如使用 720P 模型且用 Dashscope API 扩展提示，运行DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_720p ./Wan2.1-I2V-14B-720P。
文本到图像生成：无提示扩展时，单 GPU 推理运行python generate.py --task t2i-14B --size 1024*1024 --ckpt_dir ./Wan2.1-T2V-14B --prompt '具体文本描述'；多 GPU 推理运行torchrun --nproc_per_node=8 generate.py --dit_fsdp --t5_fsdp --ulysses_size 8 --base_seed 0 --frame_num 1 --task t2i-14B --size 1024*1024 --prompt '具体文本描述' --ckpt_dir ./Wan2.1-T2V-14B。有提示扩展时，单 GPU 推理添加--use_prompt_extend参数，多 GPU 推理同样添加该参数进行相应操作。