📋 速览目录 · 全部 25 篇
| # | 论文 | 领域 | Votes | 一句话 |
|---|---|---|---|---|
| 1 | VBVR | 视频推理 | 312 | 200 万样本、200 个推理任务的视频基准, 现有模型仅达人类 37% |
| 2 | VLANeXt | 具身 AI | 39 | 系统解剖 VLA 设计空间, 12 条关键发现蒸馏为实用配方 |
| 3 | SkillOrchestra | Agent | 34 | 技能感知编排框架, 比 Router-R1 降本 700 倍 |
| 4 | ManCAR | 推荐系统 | 23 | 流形约束潜在推理, NDCG@10 提升 46.88% |
| 5 | TOPReward | 机器人 | 21 | 从 VLM token logits 提取零样本奖励, VOC 0.947 |
| 6 | Agents of Chaos | 安全 | 19 | 20 名研究员红队测试自主 Agent, 11 个安全案例 |
| 7 | Mobile-O | 多模态 | 18 | 1.6B 手机端统一多模态模型, iPhone 上 3 秒推理 |
| 8 | Cross-view Correspondence | 视觉 | 13 | 循环一致性掩码预测实现跨视角物体对应, mIoU 44.57% |
| 9 | SimToolReal | 灵巧操作 | 12 | 单一 RL 策略零样本迁移, 真实工具操作成功率领先 37% |
| 10 | DSDR | LLM 推理 | 11 | 双尺度多样性正则化, AIME 准确率一致提升 |
| 11 | RoboCurate | 机器人 | 8 | 动作验证的神经轨迹多样性策略, 提升机器人数据质量 |
| 12 | DODO | OCR | 7 | 离散 OCR 扩散模型, 端到端文本识别 |
| 13 | Agentic Memory | Agent | 5 | Agent 记忆系统分类学与实证分析 |
| 14 | K-Search | 代码生成 | 4 | LLM 内核生成, 协同演化内在世界模型 |
| 15 | SimVLA | 机器人 | 3 | 简单有效的 VLA 基线用于机器人操作 |
| 16 | Nacrith | 压缩 | 2 | 集成上下文建模的神经无损压缩 |
| 17 | tttLRM | 3D 重建 | 2 | 测试时训练用于长上下文自回归 3D 重建 |
| 18 | Contact-Anchored Odometry | 机器人 | 1 | 接触锚定的四足机器人本体感觉里程计 |
| 19 | Decoding ML Decision | 推荐 | 1 | Agent 推理框架用于大规模排序系统 |
| 20 | AssetFormer | 3D 生成 | 1 | 自回归 Transformer 的模块化 3D 资产生成 |
| 21 | AAVGen | 生物 | 1 | 腺相关病毒衣壳的精准工程设计 |
| 22 | Ani3DHuman | 3D 动画 | 0 | 自引导随机采样的逼真 3D 人体动画 |
| 23 | Induction Bias | 理论 | 0 | 序列模型中的「归纳偏置」探讨 |
| 24 | Large Causal Models | 因果推理 | 0 | 时序因果发现的大规模因果模型 |
| 25 | SenTSR-Bench | 时序推理 | 0 | 注入知识的时间序列推理基准 |
今天的 HF 热榜出现了一篇现象级论文: VBVR 以 312 票断层领跑, 来自 30+ 机构的联合团队构建了一个包含 200 万样本、200 个推理任务的视频推理基准, 揭示了当前最强多模态模型在视频推理上仍然只有人类水平的 37%。
今天的主线可以概括为「具身智能全栈」: VLANeXt 系统解剖了机器人视觉-语言-动作模型的设计空间, TOPReward 用 VLM token 概率为机器人提供零样本奖励, SimToolReal 用单一 RL 策略实现零样本工具操作, SkillOrchestra 和 Agents of Chaos 则分别从编排效率和安全性角度审视 Agent 系统。
另一条暗线同样值得关注: LLM 推理探索的多样性。DSDR 提出双尺度多样性正则化, ManCAR 将推荐系统的潜在推理约束在协作流形上——两篇论文都在探索如何让模型「想得更多样、更有效」。泡一杯咖啡, 我们开始。
VBVR: 200 万样本的视频推理超级基准, 揭示最强模型仍只达人类 37%
视频理解的下一个前沿是什么? 不是识别、不是描述, 而是推理——看完一段视频后, 能否回答「为什么会发生这件事」「接下来最可能发生什么」。VBVR (A Very Big Video Reasoning Suite) 是迄今为止规模最大、最系统的视频推理基准, 由来自 CMU、NTU 等 30 多家机构的研究者联合构建。
VBVR 的规模令人震撼: 2,015,000 张图像、1,007,500 个视频片段、200 个推理任务。这些任务不是简单的视频问答, 而是系统性地覆盖了五大认知能力维度: 抽象 (Abstraction)——理解隐喻和符号意义; 知识 (Knowledge)——运用常识和专业知识; 感知 (Perception)——精确识别视觉细节; 空间 (Spatiality)——三维空间关系推理; 变换 (Transformation)——追踪物体状态变化。
最令人警醒的结论来自基线评估: 在标准评估下, 当前最强的多模态模型仅达到人类表现的 37% (人类 0.974 vs 模型约 0.36)。即使经过针对性微调, 基于 Wan2.2 的模型也只能达到 0.685 (84.6% 提升), 距离人类水平仍有巨大差距。这表明视频推理不是简单增加参数或训练数据就能解决的问题——它需要模型具备真正的时序推理、因果推断和抽象思维能力。
VBVR 还揭示了一个有趣的模式: 不同模型在五个维度上的表现差异巨大。有的模型在感知维度表现尚可, 但在抽象维度几乎随机; 有的在知识维度有优势, 但空间推理几乎为零。这暗示当前多模态模型的「视频理解」很大程度上是表层模式匹配, 而非深层认知推理。
VLANeXt: 系统解剖 VLA 设计空间, 12 条发现蒸馏为实用配方
视觉-语言-动作模型 (VLA) 正在成为通用机器人策略学习的核心范式, 但当前领域高度碎片化: 每个团队提出自己的 VLA 架构, 训练协议和评估设置各不相同, 很难判断到底哪些设计选择真正重要。VLANeXt 试图回答这个根本问题。
研究团队从一个类似 RT2/OpenVLA 的简单基线出发, 沿三个维度系统解剖了 VLA 的设计空间: 基础组件 (backbone 选择、预训练策略)、感知要素 (视觉编码器设计、本体感觉融合方式)、动作建模 (离散化 vs 连续化、预测头设计)。从这项系统研究中, 他们蒸馏出 12 条关键发现, 形成了一套实用的 VLA 构建配方。
其中最重要的三个发现是: 1) 软 VLM-策略耦合优于硬耦合——让视觉语言模型和策略网络通过特征传递而非端到端梯度强绑定, 能获得更好的泛化性; 2) 将本体感觉 (proprioception) 注入 VLM 而非仅在策略头使用, 能显著提升操作精度; 3) 频域动作建模对高频运动 (如快速抓取) 的预测明显优于时域方法。
最终, VLANeXt 以仅 2.5B 参数在 LIBERO 基准上达到 99.0% 的成功率, 超越了 7B 参数的 OpenVLA-OFT, 并在真实世界实验中展现了强泛化能力。团队承诺开源统一代码库, 为社区提供一个可复现的研究平台。
SkillOrchestra: 技能感知编排, 比 Router-R1 降本 700 倍
复合 AI 系统 (Compound AI Systems) 的成败取决于一个关键问题: 如何决定在什么时候调用哪个模型? 现有的路由方法存在两个根本性缺陷: 1) 输入级路由器在查询层面做粗粒度决策, 忽略了任务需求在多轮对话中的动态变化; 2) 基于 RL 训练的编排器成本高昂, 且经常陷入「路由坍缩」——反复调用同一个强但贵的模型。
SkillOrchestra 提出了一个全新的思路: 不直接学习路由策略, 而是先从执行轨迹中学习细粒度的「技能」, 再基于技能匹配来选择 Agent。具体来说, 框架会自动从历史执行记录中提取三个层次的可复用技能手册 (Skill Handbook): 任务级技能 (解决哪类问题)、步骤级技能 (执行什么操作)、工具级技能 (调用什么 API)。在部署时, 编排器会推断当前交互需要的技能, 然后选择在该技能上性价比最高的 Agent。
在 10 个基准测试上, SkillOrchestra 比 SOTA RL 编排器提升 22.5%, 同时比 Router-R1 和 ToolOrchestra 分别降低 700 倍和 300 倍的学习成本。更重要的是, 学到的技能手册具有跨编排器迁移能力——在一个编排器上学到的技能知识可以直接应用到另一个编排器, 无需重新训练。
ManCAR: 把推荐系统的推理过程约束在协作流形上
序列推荐正在拥抱「推理」范式: 借鉴 LLM 的链式思维, 让推荐模型在预测下一个物品之前先做多步潜在推理, 提升预测质量。但现有方法有一个致命问题: 潜在推理轨迹完全不受约束。模型可以在高维空间中自由「漫游」, 经常偏离到与用户偏好完全不相关的区域——这就是所谓的「潜在漂移 (latent drift)」。
ManCAR 的核心洞察是: 推荐系统中的推理不应该是自由形式的潜在精炼, 而应该被视为在协作流形上的导航。所谓「协作流形」, 就是由用户交互图 (物品共现关系) 定义的一个低维可行区域——给定用户最近的交互历史, 只有图上 k-hop 可达的物品才是合理的推理目标。
训练时, ManCAR 构建一个基于物品交互图的「教师先验分布」, 通过渐进式 KL 散度正则化, 迫使推理轨迹沿着流形从粗到细地精炼。论文还给出了严格的变分解释: 整个框架可以被理解为一个类 ELBO 目标, 其中 KL 项提供了流形约束的理论保证。在测试时, 推理会自适应终止——当连续两步的预测分布稳定 (KL 散度低于阈值) 时自动停止, 避免过度精炼。
TOPReward: 不让 VLM 说话, 直接读它的「内心想法」做机器人奖励
强化学习训练机器人的最大瓶颈是奖励信号——人工设计的奖励函数脆弱且不可扩展, 而现有的 VLM 零样本奖励方法 (如 GVL) 要求模型输出精确的数值进度估计, 但开源 VLM 在数值生成上出了名地不准确。TOPReward 提出了一个优雅的解决方案: 完全绕过文本生成, 直接从 VLM 的 token logits 中提取任务进度信号。
核心思路极其简洁: 给 VLM 看一段机器人操作视频, 然后问「这段视频是否完成了指定任务?」, 但不看模型生成的文字回答, 而是直接提取 「True」这个 token 的输出概率。随着视频中任务逐步完成, True 的概率会单调上升, 形成一个天然的进度信号。这种方法不需要任何额外训练或微调——它利用的是 VLM 预训练阶段就已经学到的「世界知识」。
论文还发布了 ManiRewardBench 基准, 包含 130+ 个真实世界操作任务, 覆盖 Franka、YAM、SO-100/101 四个机器人平台。在该基准上, TOPReward 使用开源 Qwen3-VL-8B 达到 0.947 的平均 VOC (值顺序相关性), 而 GVL 在同一模型上接近零相关。在真实世界的优势加权行为克隆实验中, TOPReward 在 6 个 SO-100 任务上一致优于标准行为克隆基线。