单视角动态前景 4D 重建：从 NeRF 到 Gaussian Splatting 的技术演进

📋 速览目录 · 全部 15 篇论文

#	论文	输入	核心技术	一句话
1	Shape of Motion	单目视频	SE(3) 运动基 + 3DGS	显式 3D 运动轨迹，SOTA 动态场景新视角合成
2	GFlow	单目视频（无相机参数）	动态 Gaussian + 交替优化	零参数输入同时恢复 4D 世界与相机位姿
3	ViDAR	单目视频	个性化扩散 + 伪多视角监督	扩散先验生成伪多视角，SOTA DyCheck 动态指标
4	NeoVerse	单目视频	前馈 4D 世界模型 + 在线降级模拟	通用 4D 世界模型，支持新视角视频生成
5	ShapeGen4D	视频	时序注意力 + 4D 潜在锚定	端到端视频到 4D 形状生成，CD 0.1220 最优
6	DynamicVerse	多视角视频	自动化 4D 数据管线	100K+ 动态场景数据集，精准静动分离
7	Zero4D	单目视频	深度引导关键帧 + 双向扩散插值	首个无训练单视角视频 4D 生成方法
8	Hybrid 3D-4DGS	多视角视频	自适应 3D/4D Gaussian 混合	静态用 3D、动态用 4D，同质量大幅提速
9	Reangle-A-Video	单目视频	自监督运动蒸馏 + DUSt3R	单视频生成同步多视角视频
10	4DNeX	单张图像	6D 视频表示（RGB+XYZ）	首个前馈单图到 4D 生成，15 分钟出结果
11	DimensionX	单张图像	ST-Director 时空 LoRA	空间/时序 LoRA 解耦控制，PSNR 17.11
12	DreamGaussian4D	单张图像	4D Gaussian Splatting	6.5 分钟生成 vs 基线数小时
13	3D & 4D World Modeling Survey	综述	统一分类体系	全景综述，建立 3D/4D 世界建模统一框架
14	WideRange4D	视频	Progress4D 渐进拟合	首个大范围空间运动数据集 + 渐进优化方法
15	4D LangSplat	多视角视频	4D 语言场 + MLLM	时序感知语言查询，Acc 90.83%

「有没有对单视角 + 前景物体在动的视频，动态前景重建 4D 效果比较好的工作？」这是一个切中当前计算机视觉核心难题的好问题。4D 重建（3D 空间 + 时间维度）本就困难，再加上单视角（monocular）的约束——没有多摄像头、没有已知相机参数——难度指数级上升。

本报告系统梳理了 15 篇相关核心论文，从最直接解决「单视角 + 动态前景」问题的方法，到扩散模型先验引入、前馈式架构新范式，再到高效表示与大范围运动处理，形成技术路线的完整图谱。

结论先行：Shape of Motion（2407.13764）和 GFlow（2405.18426）是目前最直接回答这个问题的工作；ViDAR（2506.18792）引入扩散先验在动态指标上取得 SOTA；新兴的前馈式方法（NeoVerse、4DNeX）正在改变优化式方法主导的格局。Gaussian Splatting 已基本取代 NeRF 成为主流表示。

背景 / 问题定义

为什么单视角动态前景 4D 重建如此困难？

4D 重建的目标是从视频输入中恢复每一帧的完整 3D 场景，并建立跨时间的对应关系——简单说，就是「让视频里的物体可以从任意角度、任意时刻观看」。这个问题本身已经足够难，单视角约束又带来三重额外挑战：

挑战 1

单视角深度歧义：同一 2D 投影对应无数 3D 场景

挑战 2

动静分离：如何区分相机运动与物体自身运动

挑战 3

时序一致性：跨帧的几何与外观必须保持物理合理

传统多视角重建（如 NeRF、3D Gaussian Splatting）依赖多个已知位姿的相机，每个 3D 点在多帧中被多次观测，极大缓解了歧义。而单视角设置下，每个时刻只有一张图像——对于动态物体，遮挡区域在相邻帧可能完全改变，几何与外观信息极度稀缺。

当前方法的技术路线大致分为三类：

优化式方法（Shape of Motion、GFlow）：对单段视频逐帧优化 Gaussian 参数，利用单目深度估计与 2D 跟踪先验。慢但质量高，是当前动态前景重建的主力。
扩散先验式（ViDAR、Reangle-A-Video）：用预训练视频扩散模型生成「虚假多视角」，将单视角问题转化为伪多视角问题。
前馈式（NeoVerse、4DNeX、DimensionX）：训练大模型直接从输入预测 4D 表示，推理速度极快，但依赖大规模训练数据。

核心矛盾：优化式方法质量高但速度慢（分钟到小时级），前馈式方法速度快但泛化性受限。扩散先验提供了一条折中路径，但额外引入了扩散模型的随机性和计算开销。

01 / 10

Shape of Motion：SE(3) 运动基让单目 4D 重建首次达到 SOTA

20 upvotes Qianqian Wang, Vickie Ye, Hang Gao · UC Berkeley, Google Research · arXiv 2407.13764

Shape of Motion 是目前解决「单视角 + 动态前景」问题最直接、最系统的工作之一。它的核心贡献是为每个 3D Gaussian 引入显式的 3D 运动轨迹，而非仅在像素空间做光流估计或 2D 跟踪。

方法的关键创新在于 SE(3) 运动基（Motion Bases）：用一组全局共享的刚性变换基底来软性分解场景中的运动群。具体来说，每个 3D Gaussian 对场景中 K 个「运动组」（可理解为独立运动的物体或部件）分配一个混合权重，每个运动组用一条 SE(3) 轨迹（旋转 + 平移的时序序列）描述。这样一来，整个场景的运动被分解为少数几个刚性运动的加权叠加，大幅降低了自由度，同时允许非刚性物体（如弯曲的手臂）通过多组混合来近似。

核心设计哲学：SE(3) 运动基同时解决了两个问题——「动态/静态分离」（静态区域的运动权重集中在零位移基上）和「时序一致性」（每个 Gaussian 的轨迹在时间上是连续函数）。不同于逐帧独立优化，轨迹的时序平滑性是内置的。

在监督信号上，Shape of Motion 充分利用了现有单目视觉基础模型：

单目深度估计（Depth Pro 等）：提供每帧的深度初始化，将 2D 跟踪点提升为 3D 轨迹。
长程 2D 跟踪（如 CoTracker）：提供跨帧像素级对应，是 3D 运动轨迹的主要监督来源。
分割掩码（SAM 等）：区分前景动态物体与静态背景。

0.082

EPE（3D 运动误差）, iPhone 数据集

16.72

PSNR（新视角合成）, Kubric 数据集

1.24K

GitHub Stars（方法受认可程度）

Shape of Motion 在 iPhone 动态场景数据集和 Kubric 合成数据集上同时达到 SOTA，这在单视角动态重建领域是较为罕见的——大多数方法在真实场景和合成场景间会有明显的性能落差。

一句话总结：Shape of Motion 证明了「用 SE(3) 运动基做软分解」比「逐帧独立优化」强得多，同时也比「刚性物体假设」更灵活——这是当前单视角动态前景 4D 重建的最佳基线之一。

arXiv: arxiv.org/abs/2407.13764 | PDF: arxiv.org/pdf/2407.13764

02 / 10

GFlow：零相机参数输入，同步恢复 4D 世界与相机位姿

17 upvotes Shizun Wang · NUS（新加坡国立大学）· arXiv 2405.18426

如果说 Shape of Motion 假设相机参数已知（或可由 COLMAP 等工具预处理得到），那么 GFlow 则更进一步：它仅需要一段单目视频，不需要任何相机内参或外参输入，在优化过程中同时恢复相机位姿和动态 Gaussian 表示。

GFlow 的核心思路是交替优化：将动态场景分离为「静态背景」（用静态 3DGS 表示）和「动态前景」（用动态 Gaussian 表示），然后交替优化相机位姿和 Gaussian 参数——固定 Gaussian 时优化相机，固定相机时优化 Gaussian，如此迭代。这本质上是一个 EM（期望最大化）算法的变体。

静动分离策略：GFlow 先用单目深度+光流初始化静态背景的 Gaussian，然后将与背景运动不一致的区域标记为动态前景。这个分离步骤非常关键——如果背景 Gaussian 被动态物体「污染」，相机位姿估计会严重偏差，进而导致整体重建崩溃。GFlow 用基于像素级的动态掩码来防止这种污染。

另一个创新是先验驱动的初始化与像素级增密（pixel-level densification）：GFlow 基于单目深度先验初始化 Gaussian 的位置，并在优化过程中对重建质量差的区域进行像素级致密化，避免 Gaussian 分布不均匀导致的重建空洞。

DAVIS 最优

PSNR / SSIM / LPIPS 三项指标

4 项应用

点追踪 / 分割 / 新视角合成 / 视频编辑

零

需要的相机参数（内参/外参）

GFlow 在 DAVIS 动态视频基准上在 PSNR、SSIM、LPIPS 三个指标上均达到最优，且因为同时恢复了相机位姿和 4D 场景，它的输出可以直接用于点追踪、分割传播、新视角合成和视频编辑等下游任务，实用性极强。

局限性：交替优化的收敛速度慢，对于场景中有复杂遮挡关系或极度非刚性运动（如布料变形）的情况，静动分离可能失败，导致相机位姿估计出现漂移。建议用于相机运动幅度不过大、动态物体遮挡不过于复杂的场景。

一句话总结：GFlow 把「给我一段视频，我还原整个 4D 世界」做到了极致——零已知参数输入，一个方法同时搞定相机定位和动态重建，是野外视频（in-the-wild video）4D 处理的重要基础工作。

arXiv: arxiv.org/abs/2405.18426 | PDF: arxiv.org/pdf/2405.18426

03 / 10

ViDAR：让视频扩散模型成为动态场景的「虚拟摄影师」

30 upvotes Michal Nazarczuk · Huawei Noah's Ark Lab, QMUL · arXiv 2506.18792

ViDAR 代表了一种与 Shape of Motion / GFlow 完全不同的技术路线：不是直接从单视角视频优化 3D 表示，而是先用扩散模型生成伪多视角视频，再做多视角重建。这个思路把「单视角 4D 重建」问题转化为「多视角 4D 重建」，绕开了最核心的歧义问题。

方法分三步：首先，对输入视频进行个性化微调（personalization），让扩散模型「记住」这段视频中动态物体的外观；然后，用微调后的扩散模型在不同相机轨迹下生成新视角视频（即「伪多视角」）；最后，用这些伪多视角视频和原视频联合训练 Gaussian Splatting 模型，并引入扩散感知损失（diffusion-aware loss）抑制扩散生成中的不一致性。

动态区域聚焦：ViDAR 的一个重要细节是它重点关注动态区域——在计算损失和监督时，对动态前景区域赋予更高权重。这与前两篇工作一致：动态前景是单视角 4D 重建中信息最稀缺、难度最高的部分。

在相机位姿估计上，ViDAR 也做了联合优化：伪多视角视频的相机位姿本身也作为可学习参数，与 Gaussian 参数同步优化。这类似于 GFlow 的交替优化思路，但这里是在已有多视角伪监督的情况下做精化，初始化质量更好。

+1.63 dB

PSNR-D（动态区域）提升 vs 基线, DyCheck

SOTA

DyCheck 基准动态重建指标

个性化

扩散模型微调，确保外观一致性

ViDAR 在 DyCheck 基准（专门评测动态场景重建的 benchmark）上取得 SOTA，动态区域 PSNR 比基线提升 1.63 dB。这一提升在图像质量指标上是显著的，尤其考虑到动态区域本来就是重建最难的部分。

代价：个性化微调需要对每段视频单独训练扩散模型，时间开销远大于直接优化式方法。扩散模型本身的随机性也会引入一定噪声，扩散感知损失是缓解手段但并非完全解决。此外，扩散模型生成的新视角在物理几何一致性上比真实多视角图像弱，对极端视角的泛化有限。

一句话总结：ViDAR 的核心洞见是「扩散模型是比单目深度估计更强的几何先验」——用扩散模型生成的多视角伪监督，比用单目深度+2D 跟踪的几何约束更丰富。代价是计算成本更高。

arXiv: arxiv.org/abs/2506.18792 | PDF: arxiv.org/pdf/2506.18792

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或