Agent 全面进化日：世界模型理论框架、诊断式自进化、全模态 Agent 三箭齐发｜HF 日报 0227

📋 速览目录 · 全部 28 篇

#	论文	领域	Votes	一句话
1	Trinity of Consistency	世界模型	178	提出通用世界模型的「一致性三位一体」理论框架 + CoW-Bench
2	DPE	多模态训练	142	诊断驱动迭代训练，工具增强数据进化修补 LMM 盲区
3	MobilityBench	Agent 基准	90	高德真实查询构建路线规划 Agent 基准，偏好约束仍是难题
4	OmniGAIA	全模态 Agent	46	360 任务全模态 Agent 基准 + OmniAtlas 工具推理 Agent
5	CapImagine	视觉推理	33	因果分析揭示潜空间推理两大断裂，文本想象反超
6	EMPO²	Agent RL	26	记忆增强探索 + 混合 on/off-policy，ScienceWorld +128.6%
7	AgentDropoutV2	多 Agent 系统	23	测试时纠错-或-剪枝，多 Agent 系统平均 +6.3%
8	SMTL	深度搜索	15	并行搜索替代串行推理，BrowseComp 48.6% SOTA
9	MediX-R1	医学 AI	13	开放式医学 RL，8B 超 MedGemma 27B
10	Hybridiff	扩散加速	11	条件引导调度混合并行，SDXL 2.31x 加速无伪影
11	VGG-T³	3D 重建	11	离线前馈大规模 3D 重建
12	EmbodMocap	具身 AI	9	野外 4D 人体-场景重建服务具身 Agent
13	AI Gamestore	评估	8	开放式可扩展通用智能评估
14	Causal Motion Diffusion	运动生成	5	因果运动扩散实现自回归动作生成
15	GeoWorld	世界模型	4	几何世界模型
16	Retrieve and Segment	分割	4	少样本检索弥合分割监督差距
17	veScale-FSDP	分布式训练	3	灵活高性能 FSDP 大规模训练
18	General Agent Evaluation	评估	3	通用 Agent 评估框架
19	Risk-Aware World Model	自动驾驶	2	风险感知世界模型预测控制
20	QueryBandits	幻觉缓解	2	Bandit 方法缓解 LLM 幻觉
21	Confusing Queries	信息检索	2	人类困惑查询特征对检索的影响
22	DLT-Corpus	NLP 语料	2	分布式账本技术大规模文本集
23	MedCLIPSeg	医学 AI	2	概率视觉语言适配的高效医学分割
24	Asymmetric Penalties	模型训练	2	过度自信错误的非对称置信惩罚
25	DyaDiT	手势生成	1	多模态扩散双人交互手势
26	MEG Transfer	脑信号	1	MEG 脑信号迁移学习与语音检测
27	Thalamic Routing	持续学习	0	丘脑路由皮层模块高效持续学习
28	Echoes Over Time	音频生成	0	视频到音频生成的长度泛化

今天的主线极其清晰：Agent 系统的全面进化。从理论层（Trinity of Consistency 提出世界模型的三维一致性公理），到训练层（DPE 诊断式迭代自进化、EMPO² 记忆增强 RL），到评估层（MobilityBench 真实路线规划、OmniGAIA 全模态 Agent），再到工程层（AgentDropoutV2 测试时纠错、SMTL 并行搜索），整条 Agent 研发链路上每个环节都有突破性工作出现。另一条暗线是「挑战直觉」：CapImagine 用因果分析证明潜空间推理根本没在推理，文本想象反而更强；Hybridiff 发现条件/非条件去噪路径可以作为并行维度，打破了扩散加速的传统思路。

Insight：当 Top 10 中 6 篇直接与 Agent 相关时，信号已经非常明确——2026 年的 Agent 研究正在从「能不能做」转向「做得稳不稳、评得准不准」。训练稳定性、评估可复现性、测试时自纠错，这些工程化难题正在成为新的论文主战场。

01 / 10

Trinity of Consistency: 提出通用世界模型的「一致性三位一体」理论框架

178 upvotes 综述论文（80+ 页）

Trinity of Consistency Overview — Trinity of Consistency: 模态一致性（语义接口）× 空间一致性（几何基础）× 时间一致性（因果引擎）

从 Sora 到各类视频生成模型，数据驱动的缩放定律已经证明可以近似物理动力学——但什么样的模型才能算「通用世界模型」？领域内缺少一个有原则的理论框架来定义世界模型必须满足的基本属性。这篇 178 票的综述正是要填补这个空白。

论文提出「一致性三位一体」作为通用世界模型的定义性原则：模态一致性（Modal Consistency）作为跨模态的语义接口，覆盖离散序列与连续流形的架构演进、意图对齐和认知循环；空间一致性（Spatial Consistency）作为几何基础，从 2D 代理流形到 NeRF 隐式场再到 3DGS 显式基元；时间一致性（Temporal Consistency）作为因果引擎，从频率稳定到物理合规到因果推理。三个维度相互正交又相互耦合，共同构成世界模型的完整性约束。

论文系统梳理了从松散耦合专用模块到统一架构的演进路径，并提出了 CoW-Bench（Consistency of World Benchmark），一个以多帧推理和生成为核心的基准，同时评估视频生成模型和统一多模态模型。超过 80 页的篇幅覆盖了世界模型研究的全景。

世界模型不只是「生成好看的视频」——它必须同时满足模态、空间、时间三个维度的一致性约束。

HF: huggingface.co/papers/2602.23152 | PaperScope: paperscope.ai/hf/2602.23152

02 / 10

DPE: 诊断驱动迭代训练，让多模态大模型自己找到盲区并修补

142 upvotes Qwen3-VL-8B / Qwen2.5-VL-7B

DPE Overview — DPE: 诊断 Agent 分析失败模式 → 动态调整数据混合 → 工具增强 Agent 生成针对性数据 → 定向强化 → 再诊断，螺旋式进化

大型多模态模型（LMM）的训练仍然依赖静态数据和固定配方，难以诊断能力盲区或提供动态针对性强化。现有自进化框架有两个关键局限：（1）缺乏可解释的诊断——依赖困惑度等启发式信号而非显式失败归因；（2）视觉多样性匮乏——静态图像集限制了语义覆盖范围。

DPE（Diagnostic-driven Progressive Evolution）借鉴教育心理学中「诊断与定向纠正是学习效率的关键决定因素」的思想，构建了一个螺旋式进化循环：先由诊断 Agent 分析模型的失败模式，定位具体的能力弱点；然后动态优化训练数据混合比例；再由配备了图像搜索和编辑工具的多 Agent 系统生成针对弱点的多样化、逼真的多模态样本（不再局限于静态数据集或模板文本改写）；最后进行定向强化学习——循环往复。

11 基准

持续稳定提升

工具增强

图像搜索+编辑

长尾攻克

数学/OCR 盲区修补

在 Qwen3-VL-8B 和 Qwen2.5-VL-7B 上的实验表明，DPE 在 11 个基准上取得持续稳定的提升。相比之下，先前的自进化框架虽能缓解幻觉但在数学、OCR 等长尾任务上无效——DPE 通过精准诊断+定向数据生成有效攻克了这些盲区。代码、模型和数据已开源。

不是简单地「多训练」，而是先诊断哪里弱，再用工具生成针对性数据定向修补——教育心理学在 LMM 训练中的工程化落地。

HF: huggingface.co/papers/2602.22859 | PaperScope: paperscope.ai/hf/2602.22859

03 / 10

MobilityBench: 高德真实查询构建路线规划 Agent 基准，偏好约束仍是 LLM 难题

90 upvotes 中科院 + 高德（阿里巴巴）

MobilityBench Overview — MobilityBench: 从高德匿名真实查询构建，覆盖基础信息检索、路线规划、偏好约束路线规划三大类别

LLM 驱动的路线规划 Agent 是一个极具应用前景的方向，但系统性评估一直受限于三个难题：路线需求多样、地图服务不确定性、可复现性差。现有基准（TravelBench、TravelPlanner）聚焦于高层旅程规划，而非真实世界的逐段路线规划。

MobilityBench 直接从高德地图的大规模匿名真实用户查询构建，覆盖全球多个城市。其核心创新是确定性 API-replay 沙箱——记录并回放真实地图 API 响应，消除了实时服务带来的环境方差，确保完全可复现。评估协议以结果有效性为核心，辅以指令理解、规划能力、工具使用和效率等多维度指标。

高德真实数据

匿名用户查询

确定性沙箱

API-replay 可复现

偏好约束

当前模型显著薄弱

测试发现，当前模型在基础信息检索和路线规划上表现尚可，但在偏好约束路线规划（如避开高速、最少换乘、时间敏感等）上表现显著落后——个性化出行仍有很大改善空间。数据集、评估工具已开源。

用真实用户查询做基准，暴露了 LLM Agent 在「理解用户偏好并转化为约束」上的短板。

HF: huggingface.co/papers/2602.22638 | PaperScope: paperscope.ai/hf/2602.22638

04 / 10

OmniGAIA: 360 任务评估全模态 Agent，OmniAtlas 展示工具推理新范式

46 upvotes 人民大学 + 小红书

OmniGAIA Overview — OmniGAIA: 全模态事件图驱动的任务生成管线 + OmniAtlas 工具集成推理 Agent

人类智能天然融合视觉、听觉和语言的全模态感知。但当前多模态 LLM 研究主要局限于双模态交互（视觉-语言或音频-语言），既有基准也大多是双模态且以感知为主，无法衡量跨模态多跳推理和多轮工具使用。

OmniGAIA 构建了一个覆盖 9 个真实领域的 360 任务基准，涵盖视频+音频和图像+音频场景。其任务生成管线基于全模态事件图：先从原始媒体中挖掘细粒度信号，构建跨模态实体/事件图，再通过跨模态检索和外部工具扩展图，最后模糊化关键节点生成多跳 QA 任务。配套的 OmniAtlas Agent 采用工具集成推理（TIR）范式，具备主动全模态感知能力，训练使用事后引导树探索合成轨迹 + OmniDPO 做细粒度纠错。

从双模态到全模态、从感知到推理+工具使用——Agent 评估进入新阶段。

HF: huggingface.co/papers/2602.22897 | PaperScope: paperscope.ai/hf/2602.22897

05 / 10

CapImagine: 因果分析证明潜空间推理「名存实亡」，文本想象反而更强

33 upvotes 视觉推理

CapImagine Overview — 因果中介分析揭示潜空间视觉推理的两个关键断裂：输入-潜变量断裂 + 潜变量-答案断裂

潜空间视觉推理（Latent Visual Reasoning, LVR）是一个近期很受关注的范式——让多模态 LLM 在隐藏状态空间中进行「想象」式推理。尽管结果看起来不错，但潜变量到底在做什么？模型真的在潜空间中进行了深思熟虑的推理吗？

这篇论文用因果中介分析（Causal Mediation Analysis）给出了令人震惊的答案：没有。分析发现两个关键断裂：第一，输入-潜变量断裂——对输入施加剧烈扰动，潜变量几乎不变（余弦相似度极高），说明潜变量没有有效关注输入；第二，潜变量-答案断裂——对潜变量施加扰动，最终答案几乎不受影响，说明潜变量对输出的因果效应有限。探针分析进一步显示，潜变量只编码了有限的视觉信息且彼此高度相似。

两大断裂

输入↔潜变量↔答案

CapImagine

文本想象替代方案

显著超越

复杂潜空间基线

基于这一发现，论文提出了 CapImagine——教模型用文本显式描述想象内容，而非在不透明的潜空间中操作。结果极其简洁有力：CapImagine 在视觉中心基准上显著超越了复杂的潜空间基线，从根本上质疑了潜空间推理的必要性。

潜空间推理看起来很酷，但因果分析证明它基本没在工作——最朴素的文本想象反而更强。

HF: huggingface.co/papers/2602.22766 | PaperScope: paperscope.ai/hf/2602.22766

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或