游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

用户投稿 19 0

无需NeRF高斯点后处理,视频秒变游戏模型成现实

V2M4团队 投稿

量子位 | 公众号 QbitAI

只需一段视频,就可以直接生成可用 的4D网格动画?!

来自KAUST的研究团队提出全新方法V2M4,能够实现从单目视频直接生成高质量、显式的4D网格动画资源。这意味着无需NeRF/高斯点后处理,可直接导入游戏/图形引擎。

该方法构建了一个系统化的多阶段流程,涵盖相机轨迹恢复、外观优化、拓扑统一、纹理合成等关键步骤,让视频“秒变模型”,大幅提升动画与游戏内容的生成效率与可用性。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

论文已被ICCV 2025正式接收。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

结果显示,其生成的外观和结构高度还原,平均每帧仅需约60秒处理,比现有方法显著提速;而且还支持「长视频」,在300帧时长的视频上依然表现优异

视频生成4D动画模型有多难?

从一段视频生成连续动画网格资产,一直是视觉计算长期未解的问题:传统动画制作需依赖多摄像头、动捕设备、人工建模等高成本手段。隐式方法如NeRF虽能复现外观,却难以直接输出拓扑一致的显式网格。

而近期的原生3D生成模型能够重建出高质量的3D网格,但常常存在姿态错位、拓扑不一致、纹理闪烁等问题。

在该工作中,V2M4首次展示了利用原生3D生成模型,从单目视频生成可用4D网格动画资产的可能性,并展现了其视觉效果与实用性。

V2M4提出一套系统化的五阶段方法,直接从单目视频构建可编辑的4D网格动画资产。该方法以“生成高质量显式网格+拓扑一致+纹理统一”为目标,从结构、外观、拓扑和时序角度逐步优化模型,输出可直接用于图形/游戏引擎的4D动画文件。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

相机轨迹恢复与网格重定位

由于原生3D生成模型输出的每帧网格常处于标准坐标系中心并且朝向固定,因此直接采用原生3D模型生成视频帧对应的3D网格会导致真实的平移和旋转信息的丢失,进而使得动画无法还原物体在视频中的真实运动。

为解决该问题,V2M4设计了三阶段相机估计策略,通过重建每帧视频的相机视角,进而将“相机运动”转化为“网格运动”。

候选相机采样+DreamSim评分:在物体周围均匀采样多个视角,渲染并与真实帧对比,挑选相似度最高的相机姿态。DUSt3R点云辅助估计:引入几何基础模型DUSt3R,通过预测点云来推算出更稳定的相机位姿,再与采样结果融合。粒子群优化+梯度下降精调:用PSO算法避免局部最优,再以渲染出的掩模差异为优化目标,通过gradient descent精细调整最终相机参数。

最终,将估计得到的相机轨迹反向应用于每一帧3D网格,从而将网格从标准姿态中“还原”回视频中的真实空间位置,实现真实的动态建模。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

外观一致性优化:条件嵌入微调

即使完成空间对齐,初始生成的网格外观往往与输入视频存在一定外观差异。为此,V2M4借鉴图像编辑中的null text optimization策略,对生成网络的条件嵌入进行微调,以DreamSim、LPIPS、MSE等指标衡量渲染结果与参考视频帧的相似度,从而优化嵌入向量,使生成的网格外观更加贴合原视频,实现更高质量的外观一致性。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

拓扑对齐与结构一致性:帧间对齐+局部约束

由于现有3D生成模型在每帧输出中存在随机性,相邻帧的网格往往在拓扑结构上存在差异,例如顶点数量、边的连接方式或面片组织均不一致。这类结构差异会严重阻碍动画的连续性与可编辑性。为解决此问题,V2M4引入了逐帧配准与拓扑统一机制:以首帧网格为标准形态(rest pose),通过全局刚体变换和局部形变优化,逐步将其拓扑结构传递给所有后续帧。在配准过程中,该方法结合Chamfer距离、可微渲染损失与ARAP刚性形变约束,实现对整体姿态和局部结构的精准调整。最终,所有帧网格不仅在形状上保持高度连续性,更在拓扑层面实现完全一致,从而为后续纹理生成与时间插值奠定稳定基础。

跨帧纹理一致性优化:共享UV提图,消除闪烁与断裂

为了确保动画过程中外观的一致性,V2M4为所有帧构建了一张共享的全局纹理贴图,避免了逐帧独立纹理所带来的色彩跳变与贴图断裂问题。由于前述拓扑统一后,各帧网格的结构保持一致,该方法以第一帧网格的UV展开作为所有帧的纹理基准,并基于多视角渲染优化贴图细节。为提升与原视频匹配的局部质量,该方法引入视角加权机制,对应视频帧的相机视图被赋予更高权重。最终,实现外观一致、帧间平滑的动画体验。

网格插帧与4D动画导出:轻量封装,一键部署

为了提升动画的时间连续性与软件适配性,V2M4对生成的网格序列进行时间插帧与结构封装。具体而言,该方法对关键帧网格的顶点位置进行线性插值,生成时序上更平滑的动画序列,并进一步将其表示为:单个静态网格,加上一组随时间变化的顶点位移张量。最终结果被导出为符合GLTF标准的动画文件,包含统一拓扑结构、共享纹理贴图与顶点时序变形,可直接导入Blender等主流图形与游戏引擎进行编辑与复用。由此,该方法实现了从视频到4D网格动画资产的完整转换路径,具备可视化、可编辑与实际应用兼容性。

效果验证与评估

为系统评估 V2M4 的性能,该工作在比以往更具挑战性的视频数据上开展实验,结合定量与定性对比,验证其在重建质量、运行效率与泛化能力上的全面优势。

定量对比:性能全面领先

该方法基于CLIP、LPIPS、FVD和DreamSim等主流指标,从语义一致性、视觉细节与时序流畅性等维度,评估输入视频与重建网格渲染之间的匹配度,更贴近真实用户感知。

与DreamMesh4D和Naive TRELLIS等方法相比,V2M4在Simple(轻微动作)及Complex(复杂动作)两个数据集上各项指标均实现领先。同时,依托高效的插帧与纹理共享机制,平均每帧仅需约60秒即可完成重建,大幅优于现有方法。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

视觉对比:结构更清晰、外观更真实

在视觉效果方面,V2M4生成的网格在渲染细节、法线结构与跨帧一致性上表现更出色,不仅还原度高、拓扑完整,更能稳定生成连续、流畅的动画,展现出优异的实用性与泛化能力。

论文链接:https://arxiv.org/abs/2503.09631

项目主页:https://windvchen.github.io/V2M4

开局一张图,AI秒生超燃游戏大片!

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

编译 | 程茜 编辑 | 心缘

智东西2月20日报道,今日凌晨,微软第一个世界和人类行动模型(WHAM)Muse 登上国际顶级学术期刊Nature

Muse是视频游戏生成模型,其参数量最高达到16亿 ,是基于接近7年的人类游戏数据 进行训练,其可以理解游戏中的物理和3D环境,然后生成对应玩家的动作以及视觉效果。

不过,因为研究工作仍处于早期,目前其仅限于以300×180像素 的分辨率生成游戏视觉效果。

论文中显示,其生成的游戏视频效果能同时保持一致性、多样性和持久性 。具体来说,其生成的两分钟视频效果人类真实游戏效果相近;会提供不同摄像机移动角度、不同角色、游戏工具的多样性效果;还支持开发者添加新元素,并自动合理融入画面。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

这一模型由微软研究员游戏智能团队、可教的AI体验(Tai X,Teachable AI Experiences)团队与微软旗下游戏工作室Xbox Games Studios的电子游戏制作公司Ninja Theory合作开发。

微软正在开源权重和样本数据 ,并提供了一个可视化的交互界面WHAM Demonstrator 供开发者体验,开发者可以在开发人员可以在Azure AI Foundry上学习试验权重、示例数据和 WHAM Demonstrator。

Xbox正在考虑基于Muse为用户构建简短的交互式AI游戏体验,将很快在Copilot Labs上试用。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

论文地址:https://www.nature.com/articles/s41586-025-08600-3

一、基于7年人类游戏数据训练,模型参数16亿

Muse上下文长度为1秒,在7 Maps数据集上训练,每张图像都以数据集的原始分辨率300×180编码为540个Tokens。7 Maps数据集的数据量相当于7年多的人类游戏时间 。研究人员从Xbox游戏Bleeding Edge的7张游戏地图中提取了大约50万个匿名游戏会话的数据,磁盘上总计27.89TiB。

此外,还有1500万到8.94亿参数的模型,上下文长度为1秒,在7 Maps过滤后的Skygarden数据集上训练,每张图像将以128×128编码成256个Tokens。该数据集指的是仅在Skygarden地图上进行1年匿名游戏的数据。

微软官方发布的示例都是通过提示模型使用10个初始帧(1秒)的人类游戏和整个游戏序列的控制器动作来生成的。

例如,用户可以将视觉对象作为初始提示加载到模型,下方视频添加了Bleeding Edge中的图像,然后使用Muse从此起点生成多个可能的延续图像。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

此外,用户还可以浏览生成的序列并进行调整,例如使用游戏控制器来指导角色。这些功能演示了Muse的功能如何将迭代作为创作过程的一部分。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

Muse在生成游戏视频时可以保持一致性多样性持久性

在一致性方面,下方视频都是基于基于 Muse生成,两段视频演示了该模型生成长达两分钟的一致游戏序列的能力。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

多样性方面,以相同的初始10帧(1 秒)真实游戏为条件,下面视频中,上方的三个视频显示了行为多样性(不同的摄像机移动、在生成位置附近徘徊以及导航到中间跳板的各种路径),下方的三个视频显示了视觉多样性(角色的不同悬浮板)。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

在持续性方面,模型还可以在修改游戏序列时提示它并保留新引入的元素。例如,在下面的演示中,可以看到新角色被添加到游戏的原始视觉对象中,视频中这一新角色会保留,还会在后续视频中继续存在。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

此外,论文中还提到Muse训练的数据是通过与Ninja Theory的合作提供的,数据收集由最终用户许可协议涵盖,研究人员对数据的使用受与游戏工作室的数据共享协议的约束,并由机构审查委员会批准。这些数据是在2020年9月至2022年10月期间记录的。为了最大限度地降低人类数据的风险,他们已从数据中删除了任何个人身份信息(Xbox用户ID) ,并对结果数据进行清理,以删除非活跃玩家的数据。

二、多学科协作评估,确定三大模型能力

在早期,研究人员首先总结了27名 从事游戏开发的创意人员的用户研究结果,以评估发散思维和迭代实践在使用生成式AI实现新颖性设计的重要作用。基于这些见解,他们确定了一组可能对实现创造性构思很重要的生成模型能力,即一致性、多样性和持久性。

其中,一致性 可以使得生成的序列随时间推移并与游戏机制保持一致,多样性 允许模型产生大量不同的序列,反映不同的潜在结果,以支持发散性思维,持久性 使得用户对游戏视觉效果和控制器动作进行修改,并将它们同化到生成的游戏序列中。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

Muse基于人类游戏数据进行训练,以预测游戏视觉效果(“帧”) 和玩家的控制器动作(“模型架构和数据”部分) 。生成的模型准确捕获了游戏环境的3D结构(“模型评估”部分)、控制器动作的效果和游戏的时间结构,使得其生成的视频可以连贯、一致且具有多样性。

一致性需要一个顺序模型,该模型可以准确捕获游戏视觉效果和控制器动作之间的依赖关系;多样性需要模型可以生成数据,保留数据集中视觉对象和控制器动作的顺序条件分布。最后,持久性是通过预测模型提供的,该模型可以以 (修改的) 图像和控制器动作作为条件。其研究方法的关键是将数据构建为一系列离散的Tokens 。为了将图像编码为Tokens序列,研究人员使用VQGAN图像编码器。其中,用于对每张图像进行编码的Tokens数量是一个关键的超参数,它在预测图像的质量与生成速度和上下文长度之间进行权衡。

对于Xbox控制器动作,尽管按钮本身是离散的,但研究人员将左右摇杆的x和y坐标离散为11个Buckets,然后训练一个仅解码器的转换器来预测交错图像和控制器动作序列中的下一个Tokens。生成的模型可以通过对下一个Tokens进行自回归采样来生成新的序列。生成过程中,研究人员还可以修改Tokens,以允许修改图像或者控制器动作。

博客中还提到,研究人员最初使用的是V100集群进行训练,他们实现了扩展到在多达100个GPU上进行训练,这最终为H100的大规模训练铺平了道路。

此外,借助最初的评估框架和对H100的有效分配,研究人员能够进一步改进Muse实例,包括更高分辨率的图像编码器和更大的模型,并扩展到所有7个Bleeding Edge地图。

微软高级研究员Tabish Rashid提到:“最初分配H100是相当艰巨的,尤其是在早期阶段,要弄清楚如何最好地利用它来扩展到带有新图像编码器的更大型号。经过数月的实验,终于在不同的地图上看到模型的输出,并且不必眯着眼睛看较小的图像,这是非常有益的。”

三、生成效果接近人类真实水平,新角色也能合理融入

论文阐释了研究人员对模型一致性、多样性和持久性的具体评估结果。

研究人员通过Fréchet视频距离 (FVD)衡量一致性效果。研究中使用模型生成游戏视觉效果,以包含视频和控制器动作的1秒游戏体验为条件,再加上人类玩家在接下来的9秒内的游戏过程中采取的控制器动作,可以看出生成的游戏玩法与真实情况匹配。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

Wasserstein距离是以前用于评估模型动作是否捕捉到人类动作全部分布的指标。研究人员将真实人类行为的边际分布与模型生成的边际分布进行了比较,Wasserstein距离越短,模型的世代就越接近人类玩家在我们的数据集中采取的行动。在训练过程中,所有模型的Wasserstein距离都会减小,接近人与人基线 (计算为人类动作序列中两个随机动作子集之间的平均距离)。

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

为了评估模型的持久性,研究人员通过插入游戏内对象、其他玩家、地图元素之一来手动编辑游戏图像。结果表明,Muse能够保留已插入到看似合理但新的起始位置的常见游戏元素

游戏短视频制作论文 无需NeRF高斯点后处理,视频秒变游戏模型成现实

结语:微软世界模型,开启重塑游戏体验新大门

微软新推出的世界模型为我们呈现了生成式AI在游戏领域的巨大潜力,正如其在示例中所言,这样的模型既可以学习游戏世界的丰富结构,还能展示如何进一步支持模型的创造性使用。这可能会从根本上改变用户未来保存和体验经典游戏的方式,并使更多玩家接触到它们。

同时,他们一开始通过与多学科人员的协作,以找到构建模型能力满足创意人员需求的切入点,也为模型在不同场景的应用提供了经验。

目前,微软已经开源了权重和样本数据,会加速开发者基于此进行后续研究,或许会在不久的将来诞生基于AI的新颖游戏体验,挖掘出AI在游戏应用的更多应用场景。

相关问答

求推荐一款笔记本,大学生写论文做PPT用不打游戏,也不要求内存,越小越好,要续航能力稍微强一点?

如果预算一般的话就荣耀Magicbook14和联想小新Air(价位也不是太高,轻薄这方面完全不用担心。只是码字做PPT的话这两款绝对够用,我感觉低配版的都够了。其他如...

求一篇关于java小游戏设计方面的毕业论文

你给5分让别人给你写个3000字的论文?不过估计给成100分也没人写,论文还是自己写吧,需要创意或者思路我可以提供。你给5分让别人给你写个3000字的论...

ro贤者天地树转职论文-ZOL问答

对于研究RO中贤者天地树的转职论文,你可以聚焦于它如何打破传统职业框架,探索自...别忘了引用一些关键的游戏数据来支撑你的观点Roguelike游戏(RO)中的贤者天地...

亲子游戏论文题目怎么写-懂得

我可以给你一份相似的,自己写好的三级提纲和正文,俺发给你

自主游戏论文参考文献有哪些?

以下是一些关于自主游戏的论文参考文献:1.华爱华.幼儿游戏理论与实践.上海:华东师范大学出版社,20062.邱学青.学前儿童游戏.南京:江苏教育出版社,...

小学五年级数学小论文_作业帮

小学五年级数学小论文答案解析解答一今天一早,我想看电脑,可电脑偏偏被老爸给占了,我不服气,说:“为什么我不能看?”老爸嘿嘿一笑,说:“那我们玩个游戏,抢报...

求一篇体育方面的3000字论文,_作业帮

采用趣味游戏,如:“请你跟我这样做”,或“反口令训练法”等方法集中学生注意力,使他们兴奋的情绪稳定下来;基本部分是体育课中的重点部分,教师应力求做到精讲多...

懒人如何利用AI改变科研与创作?-ZOL问答

别人花几个月才能完成的项目,像写论文、做实验设计之类的,我集中精力几周就能搞...后来懒癌再次发作,我干脆不再理会它,任由它自由发挥,自己则心安理得地打游戏...

互联网家装论文

在这里举个例子:今天中午刚谈了万科城别墅的一个单。我所在的公司旁边有很多的同行装饰公司,客户的比较时间很短暂,那么如何在很短的时间内打动客户...

如果不打游戏只看文献写论文的,想用五年以上的电脑,SurfaceLaptop3合适吗?

可以,完全够用,而且还非常好用。可以额外整个surfacepen,写写画画,做做批注,看论文挺好用的。写文章可以结合Windows自带onedrive,多终端,office级别版...

抱歉,评论功能暂时关闭!