论文日报 · HF Daily

HF Papers 日报 | 2026-03-05

异构Agent协同RL与实时长视频生成双星领跑,微软15B推理视觉模型入局

2026.03.05
21 篇论文, 10 篇深度解读
Top 1: 133 votes
PaperScope Editorial

速览目录 · 全部 21 篇

# 论文 领域 Votes 一句话
1HACRL多Agent RL133异构Agent共享验证rollout实现双向互学,AIME准确率+21%
2Helios视频生成11914B模型单H100实现19.5FPS实时长视频生成
3T2S-Bench & SoT推理/提示102结构化思维提示+首个文本到结构评测基准
4Proact-VL实时交互24主动式VideoLLM用于实时游戏AI伴侣
5MemSifterAgent记忆23小模型代理推理卸载LLM长期记忆检索
6ArtHOI人体交互19从视频先验4D重建合成铰接物体人机交互
7Phi-4-reasoning-vision多模态推理13微软15B开源多模态推理模型,数学科学见长
8Memex(RL)Agent记忆11索引式经验记忆+RL优化扩展长horizon Agent
9CubeComposer360°视频10立方体分解+时空自回归原生4K 360°视频生成
10V₁推理验证10统一生成与配对自验证,Pass@1提升最高10%
11AgilePruner模型压缩6注意力+多样性自适应视觉Token剪枝
12InfinityStory视频生成5无限长视频生成:世界一致性+角色感知
13RIVER视频评测4视频LLM实时交互评测基准
14SWE-CICoding Agent3持续集成场景下的代码Agent维护评测
15MUSE安全评测2多模态统一安全评估运行平台
16Specificity-aware RL细粒度分类2针对开放世界细粒度分类的特异性感知RL
17EmbodiedSplat3D理解1在线前馈语义3DGS的开放词汇3D场景理解
18BeamPERL参数高效RL1可验证奖励+参数高效RL让小模型专精代码
19MIBURI手势合成1面向表达性交互手势合成
20GroupEnsemble目标检测1DETR不确定性估计的高效集成方法
21HDINO目标检测0简洁高效的开放词汇检测器

今天 21 篇论文,两条主线清晰:多Agent协同与强化学习的新范式——HACRL 提出异构Agent共享验证rollout的协同训练范式,133 票领跑,在 AIME 2025 上实现 +21% 准确率提升;MemSifter 和 Memex(RL) 分别从不同角度攻克 Agent 长期记忆难题。视频生成迈入实时+高分辨率时代——Helios 119 票紧随其后,14B 参数模型在单张 H100 上实现 19.5 FPS 实时长视频生成;CubeComposer 则首次实现原生 4K 360° 全景视频生成。

Insight:当 HACRL 让不同策略的 Agent 互相学习而非单向蒸馏,当 Helios 用架构创新绕过 KV-cache/稀疏注意力等加速技巧实现实时生成——AI 研究正从「单点突破」转向「系统性重设计」,不再满足于修补瓶颈,而是从底层范式上重构。

01 / 10

HACRL: 异构Agent协同强化学习——不同模型互相学习,AIME准确率+21%

133 upvotes 多Agent RL · HACRL Team

当前的 LLM 强化学习主流方式是每个模型独立用自己的 on-policy rollout 训练,不同模型之间没有知识共享。传统多Agent RL(MARL)需要协调部署,知识蒸馏只能单向传递。HACRL(Heterogeneous Agent Collaborative RL)提出一种新范式:训练时协作,推理时独立——异构Agent在训练阶段共享经过验证的rollout数据,互相改进,推理时各自独立运行。

核心算法 HACPO(Heterogeneous Agent Collaborative Policy Optimization)的关键设计包括:(1) 双向rollout共享:不是传统的教师→学生单向传递,而是异构Agent之间双向互利——弱模型从强模型的正确rollout中学习,强模型也从弱模型的有效探索中获益;(2) 验证过滤:只共享通过正确性验证的rollout,避免噪声数据污染;(3) 原则性的off-policy修正:通过重要性采样比率剪裁,确保使用其他Agent生成的rollout时策略更新稳定。

+21%
AIME 2025 准确率提升
双向
异构Agent间双向互学
独立推理
训练协作·推理独立

实验在数学推理任务上验证:以 Qwen2.5-{7B, 32B} 作为异构Agent对,HACRL 在 AIME 2025 上将 7B 模型准确率从约 40% 提升至 61%(+21%),32B 模型也同时获益。HACRL 最大化了样本利用效率,特别是在 rollout 生成成本高昂的数学推理场景中,共享验证数据显著减少了冗余计算。

当不同规模、不同能力的模型可以互相学习而不需要协同部署时,RL训练的效率边界被重新定义。
02 / 10

Helios: 14B参数单H100实现19.5FPS实时长视频生成

119 upvotes 视频生成 · Helios Team

Helios 的标题用了「Real Real-Time」双重强调——它是首个在单张 NVIDIA H100 GPU 上实现 19.5 FPS 的 14B 参数视频生成模型,同时支持分钟级长视频生成,质量匹配强基线。三个关键突破让它区别于此前所有视频生成工作:

(1) 无需抗漂移技巧即可长视频稳定——不用 self-forcing、error-bank 或关键帧采样等常见启发式方法,Helios 依靠统一的输入表示和自回归扩散架构内在地保持时序一致性。(2) 无需标准加速技巧即可实时——不用 KV-cache、稀疏/线性注意力或量化,而是通过架构层面的重设计(统一输入表示 + 高效注意力机制)直接达到实时速度。(3) 训练无需并行/分片框架——在 80GB GPU 内存中可容纳最多四个 14B 模型,达到图像扩散模型级的 batch size。

19.5 FPS
单H100实时生成速度
14B
参数规模
分钟级
长视频支持

Helios 采用自回归扩散模型架构,关键创新在于统一输入表示:将条件帧和生成帧统一到同一个表示空间,使得模型可以原生地处理任意长度的视频序列。在质量方面,Helios 匹配了远更慢的基线模型,同时生成速度快了一个数量级以上。这意味着交互式视频生成和实时视频编辑正在从理论走向实践。

当14B视频生成模型可以在单GPU上实时运行时,视频生成的应用场景将发生根本性改变——从离线渲染走向实时交互。
03 / 10

T2S-Bench & Structure-of-Thought: 让模型先构建文本结构再答题,平均+5.7%提升

102 upvotes 推理/提示 · Duke + UT Austin + Meta
T2S-Bench & SoT Overview
Structure-of-Thought (SoT) 在8个文本处理任务和3个模型家族上的一致性提升

人类处理复杂阅读任务时,会标记要点、推断关系、组织结构。Structure of Thought (SoT) 将这一思路转化为提示技术:显式引导模型先构建中间文本结构(关键节点+关系链接),然后再生成最终答案。这不是 CoT 的变体——CoT 关注推理链条,SoT 关注信息结构化,让模型在回答前先「画出思维导图」。

配套的 T2S-Bench 是首个专门评估文本到结构能力的基准,包含 1.8K 样本,覆盖 6 个科学领域和 32 种结构类型。对 45 个主流模型的评测揭示了巨大的改进空间:多跳推理任务平均准确率仅 52.1%,最强模型也只有 58.1%。

+5.7%
SoT 在 8 个任务上的平均提升
+8.6%
SoT + T2S-Bench 微调后提升
52.1%
多跳推理平均准确率(仍有巨大提升空间)

在 Qwen2.5-7B-Instruct 上,SoT 单独使用在 8 个文本处理任务上带来平均 +5.7% 提升;在 T2S-Bench 上微调后增益进一步提升至 +8.6%。结果表明显式文本结构化是一个通用的中间表示(IR),可以系统性地增强模型在检索、融合、生成等多种文本处理任务上的表现。

04 / 10

Proact-VL: 主动式VideoLLM——让AI实时做游戏解说和引导

24 upvotes 实时交互 · MSRA + 深圳大学
Proact-VL Overview
Proact-VL 框架:实时解说(上)与主动引导(下)两大游戏AI伴侣场景

做一个好的 AI 游戏伴侣需要解决三个难题:(1) 在连续视频流下实现低延迟推理;(2) 自主判断何时该说话;(3) 控制内容质量和数量以满足实时约束——说太多会干扰体验,说太少又失去伴侣感。Proact-VL 正面攻克这三个问题,通过三大组件实现人类级的环境感知和交互。

框架设计包含:(1) Chunk-wise 输入输出:将视频流切分为固定长度的片段逐段处理;(2) 轻量主动响应机制:基于视觉和上下文线索自主决策何时回应;(3) 多层级损失函数:确保训练稳定性。配套构建了大规模 Live Gaming Benchmark,覆盖独立解说、多人联合解说、用户引导三种场景。

3 场景
独立解说/联合解说/用户引导
低延迟
chunk-wise实时处理
主动式
自主决策何时说话

实验表明 Proact-VL 在 TimeDiff 和 F1 等指标上优于现有方法,说明它更好地对齐了人类解说模式。同时保持了通用视频理解能力不下降——这是「专精不牺牲通用」的典型案例。

05 / 10

MemSifter: 用小模型代理推理卸载LLM长期记忆检索

23 upvotes Agent记忆 · 人民大学
MemSifter Overview
MemSifter 架构:小模型代理推理 + 结果驱动的强化学习优化

LLM 长期记忆面临一个根本性权衡:简单存储检索不准,复杂索引计算太重。Memory Graph 等结构化增强方法需要大量预处理(摘要、实体提取、图构建),而且大部分记忆永远不会被重用,前期索引成本基本浪费。让工作 LLM 自己读记忆又太贵——双重负担。

MemSifter 的核心思路是将记忆检索卸载给一个小规模代理模型。小模型先对任务进行推理,理解需要什么信息,然后检索必要的记忆。索引阶段零重计算,推理阶段仅增加最小开销。优化小模型使用了任务结果导向的强化学习:奖励基于工作 LLM 实际完成任务的表现,而非检索本身的精度——这确保检索到的是真正对任务有帮助的记忆。

代理推理
小模型卸载记忆检索
结果导向
RL奖励基于任务完成度
8 基准
含Deep Research任务

在 8 个 LLM 记忆基准(包括 Deep Research 任务)上,MemSifter 在检索精度和最终任务完成度上达到或超过现有最优方法。模型权重、代码和训练数据均已开源。

06 / 10

ArtHOI: 从视频先验做4D重建——零样本合成铰接物体的人机交互

19 upvotes 人体交互 · 港中文 + 南洋理工
ArtHOI Overview
ArtHOI:从单目视频先验重建人-铰接物体交互的4D场景

合成人与铰接物体(开冰箱、开柜门、开微波炉)的物理可信交互,在没有任何3D/4D监督的条件下极具挑战。现有零样本方法主要局限于刚性物体操作,无法建模铰接物体的部件级运动学约束。ArtHOI 将这个问题重新定义为从单目视频先验进行4D重建

流程分两步:(1) 用视频扩散模型生成一段2D视频;(2) 将生成的视频作为监督信号,通过逆渲染重建几何一致且物理合理的4D场景。关键技术包括:基于光流的部件分割(用光流作为几何线索区分动态/静态区域)和解耦重建管线(先恢复物体铰接运动,再基于此合成人体动作,避免联合优化的单目歧义问题)。

零样本
无需3D/4D监督
铰接物体
冰箱/柜门/微波炉等
4D重建
单目视频→几何一致场景

在多种铰接场景上,ArtHOI 在接触精度、穿透减少和铰接保真度上均显著优于此前方法,将零样本交互合成从刚性操作扩展到了铰接物体领域。

07 / 10

Phi-4-reasoning-vision: 微软15B开源多模态推理模型,数据质量仍是最大杠杆

13 upvotes 多模态推理 · Microsoft Research
Phi-4-reasoning-vision
Phi-4-reasoning-vision-15B 的多场景能力示例

微软发布 Phi-4-reasoning-vision-15B,一个紧凑的开源多模态推理模型。定位清晰:通用视觉-语言任务表现良好,数学和科学推理以及UI理解能力出色。报告详细分享了设计动机、数据选择、架构消融和训练洞见——是一份面向社区的实践指南。

三个核心发现:(1) 数据质量仍是最大杠杆——系统性的过滤、纠错和合成增强带来的提升最为显著,远超架构层面的调整;(2) 高分辨率动态分辨率编码器带来一致提升——准确感知是高质量推理的前提;(3) 推理/非推理混合训练+模式标记让单一模型在简单任务上给出快速直接答案,在复杂任务上启动链式推理。

15B
紧凑参数规模
开源
权重+代码完全开放
数据为王
过滤+纠错+合成是最大增益来源

在计算效率-精度 Pareto 前沿上,Phi-4-reasoning-vision 以十分之一甚至更少的推理计算和 token 消耗达到了与远更大模型相竞争的精度,特别是在数学和科学推理上。

08 / 10

Memex(RL): 索引式经验记忆——Agent学会何时存、何时取、如何索引

11 upvotes Agent记忆 · Accenture
Memex Overview
Memex 架构:紧凑工作上下文 + 索引式外部经验数据库 + RL优化的读写策略

LLM Agent 在长horizon任务上被有限上下文窗口死死卡住。现有方案要么截断历史(有损),要么摘要压缩(丢失细节),要么全部塞外部记忆用相似性检索(在噪声片段海里捞针)。Memex 提出了一种索引式经验记忆机制:在紧凑的工作上下文中维护结构化摘要和稳定索引,完整的交互历史存储在外部数据库中。

核心创新在于 MemexRL:用强化学习训练 Agent 自己学会四件事——(1) 什么该摘要,(2) 什么该归档,(3) 如何建索引,(4) 何时解引用取回完整证据。奖励塑形专门针对有限上下文预算下的索引记忆使用进行优化。这样做的好处是压缩上下文但不丢弃证据——Agent 可以随时通过索引取回原始数据。

索引记忆
压缩上下文但不丢证据
RL优化
Agent学会存取策略
更小上下文
使用更紧凑的工作上下文完成任务

理论分析表明 Memex 循环在有限解引用次数下可保持决策质量,同时有效上下文计算量随历史增长保持有界。实验在长horizon任务上验证:Memex Agent 使用显著更小的工作上下文即可提升任务成功率。

09 / 10

CubeComposer: 立方体分解+时空自回归,首次实现原生4K 360°视频生成

10 upvotes 360°视频 · 港中文 + 腾讯PCG
CubeComposer Overview
CubeComposer vs 现有方法:首次原生4K分辨率生成360°视频(无需超分辨率后处理)

VR 沉浸体验对 360° 全景视频的分辨率要求极高(原生 4K 即 3840×1920),但现有方法受限于标准扩散模型的全注意力计算,原生分辨率上限仅约 1K,只能通过后处理超分辨率勉强提升——外部上采样缺乏生成推理能力,高分辨率但细节缺失。

CubeComposer 的核心思路是立方体映射分解 + 时空自回归:将 360° 视频表示为六面立方体贴图,逐块生成而非一次性生成整个全景,从而大幅降低峰值内存。三项关键设计:(1) 时空自回归策略:精心规划的跨面+跨时间窗口生成顺序,确保一致性;(2) 立方体面上下文管理:稀疏上下文注意力提升效率;(3) 连续性感知技术:立方体感知位置编码、填充和混合,消除边界接缝。

4K 原生
3840×1920无需超分
6面
立方体贴图分解
时空AR
自回归扩散逐块生成

在基准数据集上,CubeComposer 在原生分辨率和视觉质量上均超越现有方法,首次证明扩散模型可以原生生成 4K 360° 视频,为 VR 内容创作开辟了实用路径。

10 / 10

V₁: 统一生成与配对自验证,Pass@1提升最高10%

10 upvotes 推理验证 · UC Berkeley + Together AI + NVIDIA
V₁ Overview
V₁ 框架:不确定性引导的锦标赛排名 + 配对自验证的联合RL训练

测试时扩展(test-time scaling)通过采样多个候选解并聚合来提升效果,但瓶颈在于验证:如何可靠地从候选集中识别正确解?现有方法通常独立打分每个候选,但实验发现模型在配对比较(pairwise comparison)时验证准确率远高于独立打分。

V₁ 包含两个组件:(1) V₁-Infer——不确定性引导的锦标赛排名算法,将有限的验证计算预算动态分配给相对正确性最不确定的候选对;(2) V₁-PairRL——联合训练单一模型同时作为生成器和配对自验证器,确保验证器适应生成器不断演化的分布。

+10%
Pass@1 相比逐点验证提升
+8.7%
V₁-PairRL 相比标准RL的 base Pass@1 提升
配对验证
比逐点评分更准确

在代码生成(LiveCodeBench、CodeContests、SWE-Bench)和数学推理(AIME、HMMT)基准上,V₁-Infer 的 Pass@1 比逐点验证提升最高 10%,且效率显著更高。V₁-PairRL 在测试时扩展增益上比标准 RL 提升 7-9%。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

其余论文速览 · #11-21

# 论文 领域 Votes 一句话
11AgilePruner模型压缩6注意力+多样性自适应视觉Token剪枝实验研究
12InfinityStory视频生成5无限长视频生成:世界一致性+角色感知控制
13RIVER视频评测4视频LLM实时交互基准
14SWE-CICoding Agent3持续集成场景下的代码Agent维护评测
15MUSE安全评测2多模态统一安全评估平台
16Specificity-aware RL细粒度分类2开放世界细粒度分类的特异性感知RL
17EmbodiedSplat3D理解1在线前馈语义3DGS开放词汇场景理解
18BeamPERL参数高效RL1可验证奖励+参数高效RL让小模型专精代码
19MIBURI手势合成1面向表达性交互手势合成
20GroupEnsemble目标检测1DETR不确定性估计的高效集成方法
21HDINO目标检测0简洁高效的开放词汇检测器

今日趋势

参考来源