英伟达开源世界模型SANAWM 生成一分钟视频精准控制相机轨迹
英伟达(NVIDIA)研究团队近日发布了名为“SANA-WM”的开源世界模型。该模型拥有26亿参数,能够在720p分辨率下生成Zui长1分钟的视频,其核心亮点在于对相机移动轨迹实现了精密控制。所谓世界模型,是指AI在内部预测现实或虚拟世界的结构、视角变化及物体形态演变,并将其转化为可视影像的技术架构。
当前视频生成AI领域虽已涌现出大量能制作数秒短片的模型,但要生成连贯的一分钟长视频,需消耗巨大的算力以维持整体逻辑的一致性。SANA-WM从设计之初便以一分钟生成为目标,研究团队表示,该模型在维持接近大规模工业级模型画质的同时,显著提升了计算效率。
六自由度相机控制与混合线性架构
SANA-WM不仅具备长视频生成能力,更支持复杂的相机控制。它能够沿着“六自由度”(6DoF)的相机轨迹生成影像,即涵盖前后、左右、上下移动及旋转在内的全维度视角变化。对于游戏开发和机器人仿真而言,这种随心所欲控制视角的能力是世界模型的关键功能。
为解决长视频处理中的内存与算力瓶颈,SANA-WM采用了“混合线性注意力机制”。传统模型随视频时长增加,计算量呈指数级上升,而该模型通过结合“高效保持长时间流程”与“按需检索细节信息”的双重机制,确保了长视频的一致性。

此外,为提升相机轨迹的跟随精度,SANA-WM引入了双系统相机控制策略。由于视频生成模型通常会对影像进行压缩处理,导致细微视角变化信息丢失,双系统架构不仅处理宏观运动,还捕捉帧级别的微观视角调整,有效防止了长视频中视角漂移的问题。
在画质优化方面,SANA-WM采用两阶段生成流程:主体模型先生成长视频,随后由专用的“细化器”(Refiner)对细节和帧间连贯性进行二次修正,从而显著提升Zui终成片的精细度。

高效训练与推理性能突破
在数据构建上,研究团队利用约21.3万段公开视频素材,通过从视频中估算六自由度相机姿态的标注管道,构建了高质量的训练数据集。模型在64块H100 GPU上耗时15天完成训练。
推理阶段的表现同样亮眼。SANA-WM支持单GPU生成60秒视频。若使用蒸馏后的模型配合RTX 5090显卡及NVFP4量化技术,仅需34秒即可完成720p视频的降噪生成过程。相比之下,传统配置下处理相同任务可能需要超过21分钟。

| 硬件/配置 | 处理时间 | 备注 |
|---|---|---|
| H100 (常规) | 约21.8分钟 | 基准性能 |
| H100 (蒸馏模型) | 48秒 | 效率提升显著 |
| H100 (蒸馏+Sink) | 34秒 | 优化 |
| RTX 5090 (无Sink) | OOM (内存溢出) | 无法运行 |
| RTX 5090 (有Sink) | 48秒 | 解决内存瓶颈 |
| RTX 5090 (NVFP4量化) | 42秒 | 消费级显卡可行方案 |
研究团队指出,SANA-WM在相机轨迹跟随精度上优于传统开源模型,且在保持大规模模型视觉品质的同时,吞吐量提升了36倍。用户可通过其官方演示页面查看实际生成效果。
日本AI视频生成市场正经历从“短片段展示”向“长叙事内容”转型的关键期。此前Runway等巨头在日本设立据点,反映出当地对高质量AI视频工具的迫切需求。SANA-WM的开源不仅降低了技术门槛,其高效的推理能力更让中小企业具备独立开发复杂交互视频应用的可能。对于国内开发者而言,关注此类轻量化世界模型在垂直场景(如电商展示、虚拟主播)中的落地潜力,将是捕捉下一波AI应用红利的关键。