📋 速览目录 · 全部 15 篇论文
| # | 论文 | 输入 | 核心技术 | 一句话 |
|---|---|---|---|---|
| 1 | Shape of Motion | 单目视频 | SE(3) 运动基 + 3DGS | 显式 3D 运动轨迹,SOTA 动态场景新视角合成 |
| 2 | GFlow | 单目视频(无相机参数) | 动态 Gaussian + 交替优化 | 零参数输入同时恢复 4D 世界与相机位姿 |
| 3 | ViDAR | 单目视频 | 个性化扩散 + 伪多视角监督 | 扩散先验生成伪多视角,SOTA DyCheck 动态指标 |
| 4 | NeoVerse | 单目视频 | 前馈 4D 世界模型 + 在线降级模拟 | 通用 4D 世界模型,支持新视角视频生成 |
| 5 | ShapeGen4D | 视频 | 时序注意力 + 4D 潜在锚定 | 端到端视频到 4D 形状生成,CD 0.1220 最优 |
| 6 | DynamicVerse | 多视角视频 | 自动化 4D 数据管线 | 100K+ 动态场景数据集,精准静动分离 |
| 7 | Zero4D | 单目视频 | 深度引导关键帧 + 双向扩散插值 | 首个无训练单视角视频 4D 生成方法 |
| 8 | Hybrid 3D-4DGS | 多视角视频 | 自适应 3D/4D Gaussian 混合 | 静态用 3D、动态用 4D,同质量大幅提速 |
| 9 | Reangle-A-Video | 单目视频 | 自监督运动蒸馏 + DUSt3R | 单视频生成同步多视角视频 |
| 10 | 4DNeX | 单张图像 | 6D 视频表示(RGB+XYZ) | 首个前馈单图到 4D 生成,15 分钟出结果 |
| 11 | DimensionX | 单张图像 | ST-Director 时空 LoRA | 空间/时序 LoRA 解耦控制,PSNR 17.11 |
| 12 | DreamGaussian4D | 单张图像 | 4D Gaussian Splatting | 6.5 分钟生成 vs 基线数小时 |
| 13 | 3D & 4D World Modeling Survey | 综述 | 统一分类体系 | 全景综述,建立 3D/4D 世界建模统一框架 |
| 14 | WideRange4D | 视频 | Progress4D 渐进拟合 | 首个大范围空间运动数据集 + 渐进优化方法 |
| 15 | 4D LangSplat | 多视角视频 | 4D 语言场 + MLLM | 时序感知语言查询,Acc 90.83% |
「有没有对单视角 + 前景物体在动的视频,动态前景重建 4D 效果比较好的工作?」这是一个切中当前计算机视觉核心难题的好问题。4D 重建(3D 空间 + 时间维度)本就困难,再加上单视角(monocular)的约束——没有多摄像头、没有已知相机参数——难度指数级上升。
本报告系统梳理了 15 篇相关核心论文,从最直接解决「单视角 + 动态前景」问题的方法,到扩散模型先验引入、前馈式架构新范式,再到高效表示与大范围运动处理,形成技术路线的完整图谱。
结论先行:Shape of Motion(2407.13764)和 GFlow(2405.18426)是目前最直接回答这个问题的工作;ViDAR(2506.18792)引入扩散先验在动态指标上取得 SOTA;新兴的前馈式方法(NeoVerse、4DNeX)正在改变优化式方法主导的格局。Gaussian Splatting 已基本取代 NeRF 成为主流表示。
为什么单视角动态前景 4D 重建如此困难?
4D 重建的目标是从视频输入中恢复每一帧的完整 3D 场景,并建立跨时间的对应关系——简单说,就是「让视频里的物体可以从任意角度、任意时刻观看」。这个问题本身已经足够难,单视角约束又带来三重额外挑战:
传统多视角重建(如 NeRF、3D Gaussian Splatting)依赖多个已知位姿的相机,每个 3D 点在多帧中被多次观测,极大缓解了歧义。而单视角设置下,每个时刻只有一张图像——对于动态物体,遮挡区域在相邻帧可能完全改变,几何与外观信息极度稀缺。
当前方法的技术路线大致分为三类:
- 优化式方法(Shape of Motion、GFlow):对单段视频逐帧优化 Gaussian 参数,利用单目深度估计与 2D 跟踪先验。慢但质量高,是当前动态前景重建的主力。
- 扩散先验式(ViDAR、Reangle-A-Video):用预训练视频扩散模型生成「虚假多视角」,将单视角问题转化为伪多视角问题。
- 前馈式(NeoVerse、4DNeX、DimensionX):训练大模型直接从输入预测 4D 表示,推理速度极快,但依赖大规模训练数据。
Shape of Motion:SE(3) 运动基让单目 4D 重建首次达到 SOTA
Shape of Motion 是目前解决「单视角 + 动态前景」问题最直接、最系统的工作之一。它的核心贡献是为每个 3D Gaussian 引入显式的 3D 运动轨迹,而非仅在像素空间做光流估计或 2D 跟踪。
方法的关键创新在于 SE(3) 运动基(Motion Bases):用一组全局共享的刚性变换基底来软性分解场景中的运动群。具体来说,每个 3D Gaussian 对场景中 K 个「运动组」(可理解为独立运动的物体或部件)分配一个混合权重,每个运动组用一条 SE(3) 轨迹(旋转 + 平移的时序序列)描述。这样一来,整个场景的运动被分解为少数几个刚性运动的加权叠加,大幅降低了自由度,同时允许非刚性物体(如弯曲的手臂)通过多组混合来近似。
在监督信号上,Shape of Motion 充分利用了现有单目视觉基础模型:
- 单目深度估计(Depth Pro 等):提供每帧的深度初始化,将 2D 跟踪点提升为 3D 轨迹。
- 长程 2D 跟踪(如 CoTracker):提供跨帧像素级对应,是 3D 运动轨迹的主要监督来源。
- 分割掩码(SAM 等):区分前景动态物体与静态背景。
Shape of Motion 在 iPhone 动态场景数据集和 Kubric 合成数据集上同时达到 SOTA,这在单视角动态重建领域是较为罕见的——大多数方法在真实场景和合成场景间会有明显的性能落差。
GFlow:零相机参数输入,同步恢复 4D 世界与相机位姿
如果说 Shape of Motion 假设相机参数已知(或可由 COLMAP 等工具预处理得到),那么 GFlow 则更进一步:它仅需要一段单目视频,不需要任何相机内参或外参输入,在优化过程中同时恢复相机位姿和动态 Gaussian 表示。
GFlow 的核心思路是交替优化:将动态场景分离为「静态背景」(用静态 3DGS 表示)和「动态前景」(用动态 Gaussian 表示),然后交替优化相机位姿和 Gaussian 参数——固定 Gaussian 时优化相机,固定相机时优化 Gaussian,如此迭代。这本质上是一个 EM(期望最大化)算法的变体。
另一个创新是先验驱动的初始化与像素级增密(pixel-level densification):GFlow 基于单目深度先验初始化 Gaussian 的位置,并在优化过程中对重建质量差的区域进行像素级致密化,避免 Gaussian 分布不均匀导致的重建空洞。
GFlow 在 DAVIS 动态视频基准上在 PSNR、SSIM、LPIPS 三个指标上均达到最优,且因为同时恢复了相机位姿和 4D 场景,它的输出可以直接用于点追踪、分割传播、新视角合成和视频编辑等下游任务,实用性极强。
ViDAR:让视频扩散模型成为动态场景的「虚拟摄影师」
ViDAR 代表了一种与 Shape of Motion / GFlow 完全不同的技术路线:不是直接从单视角视频优化 3D 表示,而是先用扩散模型生成伪多视角视频,再做多视角重建。这个思路把「单视角 4D 重建」问题转化为「多视角 4D 重建」,绕开了最核心的歧义问题。
方法分三步:首先,对输入视频进行个性化微调(personalization),让扩散模型「记住」这段视频中动态物体的外观;然后,用微调后的扩散模型在不同相机轨迹下生成新视角视频(即「伪多视角」);最后,用这些伪多视角视频和原视频联合训练 Gaussian Splatting 模型,并引入扩散感知损失(diffusion-aware loss)抑制扩散生成中的不一致性。
在相机位姿估计上,ViDAR 也做了联合优化:伪多视角视频的相机位姿本身也作为可学习参数,与 Gaussian 参数同步优化。这类似于 GFlow 的交替优化思路,但这里是在已有多视角伪监督的情况下做精化,初始化质量更好。
ViDAR 在 DyCheck 基准(专门评测动态场景重建的 benchmark)上取得 SOTA,动态区域 PSNR 比基线提升 1.63 dB。这一提升在图像质量指标上是显著的,尤其考虑到动态区域本来就是重建最难的部分。