📋 速览目录 · 全部 26 篇
| # | 论文 | 领域 | Votes | 一句话 |
|---|---|---|---|---|
| 1 | Nemotron-Terminal (Terminal-Task-Gen) | Coding Agent | 33 | NVIDIA 终端 Agent 数据工程,Qwen3 系列刷新 SWE-bench SOTA |
| 2 | Query-focused Memory-aware Reranker | IR / 检索 | 33 | 4B 参数利用检索注意力头重排序,超越所有 SOTA pointwise/listwise |
| 3 | PyVision-RL | 多模态 RL | 20 | RL 训练开源多模态 Agent,过采样-过滤-排序防止交互坍缩 |
| 4 | CHAIN | 具身 AI / 基准 | 19 | 物理驱动 3D 因果推理基准,从感知到行动的考场 |
| 5 | TTT with KV Binding = Linear Attention | 架构 / 理论 | 12 | 揭示 TTT-KV Binding 本质是线性注意力,统一多种 TTT 变体 |
| 6 | Multi-Vector Index Compression | 检索 / 压缩 | 12 | 注意力引导聚类压缩多模态检索索引,跨文本/图像/视频通用 |
| 7 | LongCLI-Bench | 编程基准 | 10 | 长程 CLI 编程基准,20 任务覆盖从零搭建到重构全链路 |
| 8 | DREAM | 评测 / Agent | 9 | 揭示深度研究 Agent 的「合成幻境」,让评测者也成为 Agent |
| 9 | Conv-FinRe | 金融 / LLM | 7 | 对话式金融推荐基准,区分行为模仿与投资决策质量 |
| 10 | QuantVLA | 具身 AI / 量化 | 6 | 首个 VLA 后训练量化框架,无训练压缩语言+视觉+DiT 动作头 |
| 11 | Reflective Test-Time Planning | 具身 AI | 3 | 反思式测试时规划,从错误中学习 |
| 12 | Diffusion Duality: Ψ-Samplers | 扩散模型 | 3 | 离散扩散预测-校正采样器 |
| 13 | COMiT | 视觉编码 | 3 | 通信启发的结构化图像分词 |
| 14 | One-step Language Modeling via Denoising | 语言模型 | 3 | 连续去噪一步语言生成 |
| 15 | Aletheia (FirstProof) | 数学推理 | 2 | Gemini 3 驱动数学研究 Agent |
| 16 | Implicit Intelligence | Agent 评测 | 2 | 评估 Agent 对隐含需求的理解能力 |
| 17 | UPipe | 训练优化 | 2 | 注意力头级分块实现上下文并行,内存高效 |
| 18 | PETS | 推理优化 | 2 | 原则性测试时轨迹分配与自一致性 |
| 19 | FlowPrefill | LLM 推理 | 1 | 解耦抢占与预填充调度 |
| 20 | Art of Efficient Reasoning | 推理效率 | 1 | 数据/奖励/优化三维度探索高效推理 |
| 21 | Adaptive Text Anonymization | 隐私 | 1 | 自适应文本匿名化保护隐私 |
| 22 | LaS-Comp | 3D 补全 | 1 | 零样本形状补全,语言辅助 |
| 23 | OCR-Agent | OCR | 0 | 反思式自校正 OCR Agent |
| 24 | OmniOCR | OCR | 0 | 少数民族语言通用 OCR 系统 |
| 25 | TextPecker | 图像生成 | 0 | 视觉文字渲染结构异常感知 |
| 26 | Container Dwell Time Prediction | 物流 | 0 | GenAI+ML 集装箱停留时间预测 |
今天的 HF 热榜出现了一个罕见现象: 双第一并列,各 33 票。来自 NVIDIA Research 的终端 Agent 数据工程论文和一篇利用 LLM 检索注意力头的重排序论文同时斩获最高人气——这本身就说明了今天两大主题的分量。
今天的主线可以读作「Agent 能力的地基建设」: Nemotron-Terminal 系统性地研究了如何通过数据工程让 LLM 真正胜任终端编程任务, PyVision-RL 用强化学习锻造开源多模态 Agent 的视频推理能力, CHAIN 构建了一个物理驱动的因果推理考场来衡量 VLM 的行动规划边界, DREAM 则揭示了当前深度研究 Agent 的「合成幻境」——它们会把信息拼凑成看似合理的答案, 但实际上并没有真正理解。
另一条技术暗线同样引人入胜: 效率与架构的重新审视。TTT-KV Binding 和线性注意力的数学等价关系被精确揭示, 多向量检索索引的注意力引导压缩横跨文本/图像/视频三种模态, QuantVLA 首次把后训练量化推进到 VLA 的 DiT 动作头——三篇论文都在问同一个问题: 我们能以更少的计算做到同样多的事吗? 泡一杯茶, 我们开始。
Nemotron-Terminal: NVIDIA 系统研究终端 Agent 数据工程, 刷新 SWE-bench SOTA
终端 Agent 是 AI Coding 的下一个前沿: 不再仅仅补全一个函数, 而是直接在命令行环境中运行代码、调试错误、安装依赖、跑测试套件。但这类能力的培养一直面临数据瓶颈——高质量的终端交互轨迹数据极度稀缺。NVIDIA Research 的这篇论文从数据工程角度系统攻克了这个问题。
论文的核心贡献有两个: 第一是 Terminal-Task-Gen——一套合成任务生成流水线, 能够从代码仓库自动生成多样化的终端编程任务, 包括从零编写、功能扩展、Bug 修复和代码重构四类; 第二是对数据策略和训练策略的系统消融分析, 回答了「什么样的数据最有效」「如何平衡不同难度的任务」「强化学习和监督微调该如何搭配」等关键工程问题。两者共同产出了 Terminal-Corpus 数据集。
训练产出的 Nemotron-Terminal 家族 (基于 Qwen3 8B/14B/32B) 在 SWE-bench、HumanEval-Terminal 和 REPL-Bench 三个终端编程基准上均达到当前最优水平。论文的关键发现包括: 终端场景需要专门的任务类型覆盖 (仅靠通用代码数据效果有限), 强化学习对于提升 Bug 修复和调试能力尤为关键, 以及数据多样性比数据规模对最终性能的影响更大。
从应用角度看, Nemotron-Terminal 意味着开发者可以基于 Qwen3 骨干构建具备真实终端操作能力的 Agent, 而 Terminal-Corpus 数据集的发布更为社区提供了一个可复现的起点。这是 AI Coding 从「代码补全」迈向「真实工程任务」的重要一步。
Query-focused Memory-aware Reranker: 4B 参数利用检索注意力头, 超越所有 SOTA 重排序器
重排序 (Reranking) 是 RAG 流水线中决定最终检索质量的关键环节。现有方法分为两类: Pointwise 方法单独给每个候选文档打分, 忽略了候选文档之间的相对关系; Listwise 方法虽然能整体考虑所有候选, 但通常需要大型模型才能取得好效果。这篇论文提出了一个优雅的替代方案: 直接利用 LLM 内部的「检索注意力头」进行重排序, 而无需额外训练专门的打分网络。
核心洞察来自于对 LLM 内部注意力机制的深入分析: 研究者发现, 在经过预训练的 LLM 中, 存在一部分专门负责检索相关 token 的注意力头——当模型处理一段上下文时, 这些「检索头」的注意力分数天然反映了不同 passage 与查询的相关程度。论文将这些注意力分数聚合为每个候选文档的相关性得分, 构建了一个完全无需额外训练的 Listwise 重排序框架。
在多个检索域 (包括事实性问答、医学、法律、代码等) 的评估中, 该方法仅用 4B 参数模型就超越了所有 SOTA 的 Pointwise 和 Listwise 重排序器。其关键优势在于: 1) 整体考虑所有候选文档的相对关系 (Listwise 的优点); 2) 不需要生成长文本输出, 推理效率远高于传统 Listwise 方法; 3) 直接利用预训练阶段积累的世界知识, 泛化能力强。
PyVision-RL: 过采样-过滤-排序三步法, 用 RL 锻造开源多模态视觉 Agent
用强化学习训练多模态 Agent 面临一个独特难题: 交互坍缩 (Interaction Collapse)——模型会学会「少用工具」来规避奖励不确定性, 最终退化成只生成文字而不真正调用视觉工具的语言模型。PyVision-RL 专门针对这个问题提出了系统性解决方案。
论文的核心方法是 过采样-过滤-排序 (Oversampling-Filtering-Ranking) Rollout 策略: 在每轮训练中, 为每个问题生成大量候选轨迹 (过采样), 过滤掉工具调用次数过少的轨迹 (过滤), 再按奖励从高到低排序选出训练样本 (排序)。这种方式从数据层面强制确保训练信号中有足够多的工具交互行为。与此同时, 论文还引入了累积工具奖励: 每次成功的工具调用都会累积一个额外奖励项, 让模型学到「主动使用工具」本身就是有价值的行为。
论文发布了两个模型: PyVision-Image 专注图像理解场景, PyVision-Video 则专门针对视频场景——后者的一个亮点是实现了按需动态取帧: 模型可以根据推理需要主动请求查看视频的特定时间段, 而非被动接受固定帧率的视频输入。这种主动感知策略大幅提升了长视频理解效率。两个模型均完整开源。
CHAIN: 物理驱动的交互式 3D 因果推理基准, 让 VLM 从旁观者变成行动者
当前绝大多数 VLM 基准测试的本质是被动感知: 给模型看一张图或一段视频, 问它「这里发生了什么」。CHAIN 提出了一个根本性的范式转变: 从被动感知到主动行动。在 CHAIN 的测试环境中, 模型必须理解物理约束、规划行动序列, 并在 3D 交互环境中实际执行——如同一个真正需要「动手解决问题」的考场。
CHAIN 全称 Causal Hierarchy of Actions and Interactions, 基于物理引擎构建了一个交互式 3D 测试平台。每个任务要求模型: 1) 理解场景中物体之间的物理因果关系 (如支撑关系、碰撞关系); 2) 规划一个结构化的动作序列 (如先移开障碍物, 再堆叠目标物体); 3) 在物理约束下执行并验证每一步操作的效果。这种设计将传统的感知-问答任务升级为感知-推理-规划-执行的完整闭环。
基线评估揭示了一个令人清醒的现实: 即使是当前最强的 VLM, 在 CHAIN 上的表现也远低于人类水平。特别是在需要多步因果推理和精确动作序列规划的任务上, 模型频繁犯下「逻辑上正确但物理上不可执行」的错误——比如规划「把下面的积木移开」却没意识到上面的积木会因此倒塌。这表明当前 VLM 的物理常识和因果推理能力距离真正的具身智能仍有显著差距。
TTT with KV Binding 本质是线性注意力: 揭示深层等价, 统一简化多种变体
测试时训练 (Test-Time Training, TTT) 近年来成为序列建模的热门方向: 让模型在推理时对输入序列进行快速适应性更新, 以处理超长上下文。其中 KV Binding 变体因为实现相对简单而被广泛使用。但这篇论文揭示了一个此前未被注意到的深刻联系: 带 KV Binding 的 TTT 在数学上等价于已学习的线性注意力 (Learned Linear Attention)。
这种等价关系不仅仅是一个数学趣闻——它具有直接的工程价值。一旦明确了这种等价性, 多种 TTT 变体都可以被统一简化到标准线性注意力形式: 原本需要迭代优化的测试时梯度更新, 可以被重写为一个封闭形式的并行计算, 避免了序列化的梯度下降步骤。研究者还推导了几个关键的架构简化原则, 使得在实际实现中可以省去若干冗余计算模块。
论文的意义在于: 它让研究者可以用线性注意力的成熟工具链 (高效 CUDA kernel、理论分析框架) 来分析和优化 TTT 系统, 而无需为每种 TTT 变体重新开发专用实现。同时, 这种统一视角也揭示了 TTT 的本质局限——它本质上是在学习一种特殊形式的软注意力权重, 而非真正的「在线学习」。这为未来设计更强大的长上下文机制提供了清晰的理论起点。