VBVR: 最强模型仅达人类 37%；VLA 设计空间 12 条关键发现｜HF 日报 0224

📋 速览目录 · 全部 25 篇

#	论文	领域	Votes	一句话
1	VBVR	视频推理	312	200 万样本、200 个推理任务的视频基准, 现有模型仅达人类 37%
2	VLANeXt	具身 AI	39	系统解剖 VLA 设计空间, 12 条关键发现蒸馏为实用配方
3	SkillOrchestra	Agent	34	技能感知编排框架, 比 Router-R1 降本 700 倍
4	ManCAR	推荐系统	23	流形约束潜在推理, NDCG@10 提升 46.88%
5	TOPReward	机器人	21	从 VLM token logits 提取零样本奖励, VOC 0.947
6	Agents of Chaos	安全	19	20 名研究员红队测试自主 Agent, 11 个安全案例
7	Mobile-O	多模态	18	1.6B 手机端统一多模态模型, iPhone 上 3 秒推理
8	Cross-view Correspondence	视觉	13	循环一致性掩码预测实现跨视角物体对应, mIoU 44.57%
9	SimToolReal	灵巧操作	12	单一 RL 策略零样本迁移, 真实工具操作成功率领先 37%
10	DSDR	LLM 推理	11	双尺度多样性正则化, AIME 准确率一致提升
11	RoboCurate	机器人	8	动作验证的神经轨迹多样性策略, 提升机器人数据质量
12	DODO	OCR	7	离散 OCR 扩散模型, 端到端文本识别
13	Agentic Memory	Agent	5	Agent 记忆系统分类学与实证分析
14	K-Search	代码生成	4	LLM 内核生成, 协同演化内在世界模型
15	SimVLA	机器人	3	简单有效的 VLA 基线用于机器人操作
16	Nacrith	压缩	2	集成上下文建模的神经无损压缩
17	tttLRM	3D 重建	2	测试时训练用于长上下文自回归 3D 重建
18	Contact-Anchored Odometry	机器人	1	接触锚定的四足机器人本体感觉里程计
19	Decoding ML Decision	推荐	1	Agent 推理框架用于大规模排序系统
20	AssetFormer	3D 生成	1	自回归 Transformer 的模块化 3D 资产生成
21	AAVGen	生物	1	腺相关病毒衣壳的精准工程设计
22	Ani3DHuman	3D 动画	0	自引导随机采样的逼真 3D 人体动画
23	Induction Bias	理论	0	序列模型中的「归纳偏置」探讨
24	Large Causal Models	因果推理	0	时序因果发现的大规模因果模型
25	SenTSR-Bench	时序推理	0	注入知识的时间序列推理基准

今天的 HF 热榜出现了一篇现象级论文: VBVR 以 312 票断层领跑, 来自 30+ 机构的联合团队构建了一个包含 200 万样本、200 个推理任务的视频推理基准, 揭示了当前最强多模态模型在视频推理上仍然只有人类水平的 37%。

今天的主线可以概括为「具身智能全栈」: VLANeXt 系统解剖了机器人视觉-语言-动作模型的设计空间, TOPReward 用 VLM token 概率为机器人提供零样本奖励, SimToolReal 用单一 RL 策略实现零样本工具操作, SkillOrchestra 和 Agents of Chaos 则分别从编排效率和安全性角度审视 Agent 系统。

另一条暗线同样值得关注: LLM 推理探索的多样性。DSDR 提出双尺度多样性正则化, ManCAR 将推荐系统的潜在推理约束在协作流形上——两篇论文都在探索如何让模型「想得更多样、更有效」。泡一杯咖啡, 我们开始。

01 / 10

VBVR: 200 万样本的视频推理超级基准, 揭示最强模型仍只达人类 37%

312 upvotes · 热榜第一 CMU, NTU, 30+ 机构联合

VBVR Overview — Figure 1: VBVR 概览 — 五大认知维度 × 200 个推理任务, 规模是此前 9 个数据集之和的 157 倍

视频理解的下一个前沿是什么? 不是识别、不是描述, 而是推理——看完一段视频后, 能否回答「为什么会发生这件事」「接下来最可能发生什么」。VBVR (A Very Big Video Reasoning Suite) 是迄今为止规模最大、最系统的视频推理基准, 由来自 CMU、NTU 等 30 多家机构的研究者联合构建。

VBVR 的规模令人震撼: 2,015,000 张图像、1,007,500 个视频片段、200 个推理任务。这些任务不是简单的视频问答, 而是系统性地覆盖了五大认知能力维度: 抽象 (Abstraction)——理解隐喻和符号意义; 知识 (Knowledge)——运用常识和专业知识; 感知 (Perception)——精确识别视觉细节; 空间 (Spatiality)——三维空间关系推理; 变换 (Transformation)——追踪物体状态变化。

200 万+

图像样本数

200 个

推理任务

5 大维度

认知能力覆盖

最令人警醒的结论来自基线评估: 在标准评估下, 当前最强的多模态模型仅达到人类表现的 37% (人类 0.974 vs 模型约 0.36)。即使经过针对性微调, 基于 Wan2.2 的模型也只能达到 0.685 (84.6% 提升), 距离人类水平仍有巨大差距。这表明视频推理不是简单增加参数或训练数据就能解决的问题——它需要模型具备真正的时序推理、因果推断和抽象思维能力。

VBVR 还揭示了一个有趣的模式: 不同模型在五个维度上的表现差异巨大。有的模型在感知维度表现尚可, 但在抽象维度几乎随机; 有的在知识维度有优势, 但空间推理几乎为零。这暗示当前多模态模型的「视频理解」很大程度上是表层模式匹配, 而非深层认知推理。

一句话总结: VBVR 用 200 万样本和 200 个任务构建了视频推理的终极考场——当前最强模型仅达人类 37%, 视频推理是多模态 AI 的下一个硬骨头。

编辑按语: 312 票断层第一不是偶然。VBVR 的意义在于它不是又一个「刷分用」的基准, 而是真正揭示了能力差距的诊断工具。五维度的认知框架为未来的多模态模型改进提供了清晰的路线图——先补哪个维度, 一目了然。

HF: huggingface.co/papers/2602.20159 | PaperScope: paperscope.ai/hf/2602.20159

02 / 10

VLANeXt: 系统解剖 VLA 设计空间, 12 条发现蒸馏为实用配方

39 upvotes NTU, S-Lab

视觉-语言-动作模型 (VLA) 正在成为通用机器人策略学习的核心范式, 但当前领域高度碎片化: 每个团队提出自己的 VLA 架构, 训练协议和评估设置各不相同, 很难判断到底哪些设计选择真正重要。VLANeXt 试图回答这个根本问题。

研究团队从一个类似 RT2/OpenVLA 的简单基线出发, 沿三个维度系统解剖了 VLA 的设计空间: 基础组件 (backbone 选择、预训练策略)、感知要素 (视觉编码器设计、本体感觉融合方式)、动作建模 (离散化 vs 连续化、预测头设计)。从这项系统研究中, 他们蒸馏出 12 条关键发现, 形成了一套实用的 VLA 构建配方。

99.0%

LIBERO 基准 SOTA

2.5B

参数量 (超越 7B OpenVLA-OFT)

12 条

关键设计发现

其中最重要的三个发现是: 1) 软 VLM-策略耦合优于硬耦合——让视觉语言模型和策略网络通过特征传递而非端到端梯度强绑定, 能获得更好的泛化性; 2) 将本体感觉 (proprioception) 注入 VLM 而非仅在策略头使用, 能显著提升操作精度; 3) 频域动作建模对高频运动 (如快速抓取) 的预测明显优于时域方法。

最终, VLANeXt 以仅 2.5B 参数在 LIBERO 基准上达到 99.0% 的成功率, 超越了 7B 参数的 OpenVLA-OFT, 并在真实世界实验中展现了强泛化能力。团队承诺开源统一代码库, 为社区提供一个可复现的研究平台。

一句话总结: VLANeXt 用系统消融实验回答了「VLA 怎么建」这个根本问题——12 条经验法则 + 2.5B 模型超越 7B, 为具身 AI 提供了实用工程指南。

HF: huggingface.co/papers/2602.18532 | PaperScope: paperscope.ai/hf/2602.18532

03 / 10

SkillOrchestra: 技能感知编排, 比 Router-R1 降本 700 倍

34 upvotes UW-Madison, Salesforce AI Research

复合 AI 系统 (Compound AI Systems) 的成败取决于一个关键问题: 如何决定在什么时候调用哪个模型? 现有的路由方法存在两个根本性缺陷: 1) 输入级路由器在查询层面做粗粒度决策, 忽略了任务需求在多轮对话中的动态变化; 2) 基于 RL 训练的编排器成本高昂, 且经常陷入「路由坍缩」——反复调用同一个强但贵的模型。

SkillOrchestra 提出了一个全新的思路: 不直接学习路由策略, 而是先从执行轨迹中学习细粒度的「技能」, 再基于技能匹配来选择 Agent。具体来说, 框架会自动从历史执行记录中提取三个层次的可复用技能手册 (Skill Handbook): 任务级技能 (解决哪类问题)、步骤级技能 (执行什么操作)、工具级技能 (调用什么 API)。在部署时, 编排器会推断当前交互需要的技能, 然后选择在该技能上性价比最高的 Agent。

+22.5%

超越 SOTA RL 编排器

700x

vs Router-R1 训练成本降低

10 个

覆盖基准

在 10 个基准测试上, SkillOrchestra 比 SOTA RL 编排器提升 22.5%, 同时比 Router-R1 和 ToolOrchestra 分别降低 700 倍和 300 倍的学习成本。更重要的是, 学到的技能手册具有跨编排器迁移能力——在一个编排器上学到的技能知识可以直接应用到另一个编排器, 无需重新训练。

一句话总结: SkillOrchestra 用「先学技能, 再做路由」取代了端到端 RL, 在效果和成本上同时大幅领先——这可能是复合 AI 系统编排的正确范式。

HF: huggingface.co/papers/2602.19672 | PaperScope: paperscope.ai/hf/2602.19672

04 / 10

ManCAR: 把推荐系统的推理过程约束在协作流形上

23 upvotes 多机构合作

序列推荐正在拥抱「推理」范式: 借鉴 LLM 的链式思维, 让推荐模型在预测下一个物品之前先做多步潜在推理, 提升预测质量。但现有方法有一个致命问题: 潜在推理轨迹完全不受约束。模型可以在高维空间中自由「漫游」, 经常偏离到与用户偏好完全不相关的区域——这就是所谓的「潜在漂移 (latent drift)」。

ManCAR 的核心洞察是: 推荐系统中的推理不应该是自由形式的潜在精炼, 而应该被视为在协作流形上的导航。所谓「协作流形」, 就是由用户交互图 (物品共现关系) 定义的一个低维可行区域——给定用户最近的交互历史, 只有图上 k-hop 可达的物品才是合理的推理目标。

46.88%

NDCG@10 最大提升

ELBO

变分目标理论保证

7 个

基准数据集验证

训练时, ManCAR 构建一个基于物品交互图的「教师先验分布」, 通过渐进式 KL 散度正则化, 迫使推理轨迹沿着流形从粗到细地精炼。论文还给出了严格的变分解释: 整个框架可以被理解为一个类 ELBO 目标, 其中 KL 项提供了流形约束的理论保证。在测试时, 推理会自适应终止——当连续两步的预测分布稳定 (KL 散度低于阈值) 时自动停止, 避免过度精炼。

一句话总结: ManCAR 将推荐系统的潜在推理从「自由漫游」变为「流形导航」, NDCG@10 最高提升 46.88%——推荐 + 推理的正确打开方式。

HF: huggingface.co/papers/2602.20093 | PaperScope: paperscope.ai/hf/2602.20093

05 / 10

TOPReward: 不让 VLM 说话, 直接读它的「内心想法」做机器人奖励

21 upvotes UW, NVIDIA

强化学习训练机器人的最大瓶颈是奖励信号——人工设计的奖励函数脆弱且不可扩展, 而现有的 VLM 零样本奖励方法 (如 GVL) 要求模型输出精确的数值进度估计, 但开源 VLM 在数值生成上出了名地不准确。TOPReward 提出了一个优雅的解决方案: 完全绕过文本生成, 直接从 VLM 的 token logits 中提取任务进度信号。

核心思路极其简洁: 给 VLM 看一段机器人操作视频, 然后问「这段视频是否完成了指定任务?」, 但不看模型生成的文字回答, 而是直接提取 「True」这个 token 的输出概率。随着视频中任务逐步完成, True 的概率会单调上升, 形成一个天然的进度信号。这种方法不需要任何额外训练或微调——它利用的是 VLM 预训练阶段就已经学到的「世界知识」。

0.947

Qwen3-VL-8B 平均 VOC

130+

真实世界操作任务

4 个

机器人平台验证

论文还发布了 ManiRewardBench 基准, 包含 130+ 个真实世界操作任务, 覆盖 Franka、YAM、SO-100/101 四个机器人平台。在该基准上, TOPReward 使用开源 Qwen3-VL-8B 达到 0.947 的平均 VOC (值顺序相关性), 而 GVL 在同一模型上接近零相关。在真实世界的优势加权行为克隆实验中, TOPReward 在 6 个 SO-100 任务上一致优于标准行为克隆基线。

重要发现: 论文发现 chat template 会严重降低 TOPReward 性能 (Qwen3-VL 下降 47%)——因为进度估计更接近预训练阶段的下一个 token 预测目标, 而非指令遵循场景。这解释了为什么 TOPReward 在 Gemini API (强制 chat template) 上表现不佳。

一句话总结: TOPReward 证明了「读 VLM 的内心」比「听它说什么」更靠谱——零训练, 零样本, 开源 VLM 即可提供高质量机器人奖励信号。

HF: huggingface.co/papers/2602.19313 | PaperScope: paperscope.ai/hf/2602.19313

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或