异构Agent协同RL与实时长视频生成双星领跑，微软15B推理视觉模型入局｜HF 日报 0305

速览目录 · 全部 21 篇

#	论文	领域	Votes	一句话
1	HACRL	多Agent RL	133	异构Agent共享验证rollout实现双向互学，AIME准确率+21%
2	Helios	视频生成	119	14B模型单H100实现19.5FPS实时长视频生成
3	T2S-Bench & SoT	推理/提示	102	结构化思维提示+首个文本到结构评测基准
4	Proact-VL	实时交互	24	主动式VideoLLM用于实时游戏AI伴侣
5	MemSifter	Agent记忆	23	小模型代理推理卸载LLM长期记忆检索
6	ArtHOI	人体交互	19	从视频先验4D重建合成铰接物体人机交互
7	Phi-4-reasoning-vision	多模态推理	13	微软15B开源多模态推理模型，数学科学见长
8	Memex(RL)	Agent记忆	11	索引式经验记忆+RL优化扩展长horizon Agent
9	CubeComposer	360°视频	10	立方体分解+时空自回归原生4K 360°视频生成
10	V₁	推理验证	10	统一生成与配对自验证，Pass@1提升最高10%
11	AgilePruner	模型压缩	6	注意力+多样性自适应视觉Token剪枝
12	InfinityStory	视频生成	5	无限长视频生成：世界一致性+角色感知
13	RIVER	视频评测	4	视频LLM实时交互评测基准
14	SWE-CI	Coding Agent	3	持续集成场景下的代码Agent维护评测
15	MUSE	安全评测	2	多模态统一安全评估运行平台
16	Specificity-aware RL	细粒度分类	2	针对开放世界细粒度分类的特异性感知RL
17	EmbodiedSplat	3D理解	1	在线前馈语义3DGS的开放词汇3D场景理解
18	BeamPERL	参数高效RL	1	可验证奖励+参数高效RL让小模型专精代码
19	MIBURI	手势合成	1	面向表达性交互手势合成
20	GroupEnsemble	目标检测	1	DETR不确定性估计的高效集成方法
21	HDINO	目标检测	0	简洁高效的开放词汇检测器

今天 21 篇论文，两条主线清晰：多Agent协同与强化学习的新范式——HACRL 提出异构Agent共享验证rollout的协同训练范式，133 票领跑，在 AIME 2025 上实现 +21% 准确率提升；MemSifter 和 Memex(RL) 分别从不同角度攻克 Agent 长期记忆难题。视频生成迈入实时+高分辨率时代——Helios 119 票紧随其后，14B 参数模型在单张 H100 上实现 19.5 FPS 实时长视频生成；CubeComposer 则首次实现原生 4K 360° 全景视频生成。

Insight：当 HACRL 让不同策略的 Agent 互相学习而非单向蒸馏，当 Helios 用架构创新绕过 KV-cache/稀疏注意力等加速技巧实现实时生成——AI 研究正从「单点突破」转向「系统性重设计」，不再满足于修补瓶颈，而是从底层范式上重构。

01 / 10

HACRL: 异构Agent协同强化学习——不同模型互相学习，AIME准确率+21%

133 upvotes 多Agent RL · HACRL Team

当前的 LLM 强化学习主流方式是每个模型独立用自己的 on-policy rollout 训练，不同模型之间没有知识共享。传统多Agent RL（MARL）需要协调部署，知识蒸馏只能单向传递。HACRL（Heterogeneous Agent Collaborative RL）提出一种新范式：训练时协作，推理时独立——异构Agent在训练阶段共享经过验证的rollout数据，互相改进，推理时各自独立运行。

核心算法 HACPO（Heterogeneous Agent Collaborative Policy Optimization）的关键设计包括：(1) 双向rollout共享：不是传统的教师→学生单向传递，而是异构Agent之间双向互利——弱模型从强模型的正确rollout中学习，强模型也从弱模型的有效探索中获益；(2) 验证过滤：只共享通过正确性验证的rollout，避免噪声数据污染；(3) 原则性的off-policy修正：通过重要性采样比率剪裁，确保使用其他Agent生成的rollout时策略更新稳定。

+21%

AIME 2025 准确率提升

双向

异构Agent间双向互学

独立推理

训练协作·推理独立

实验在数学推理任务上验证：以 Qwen2.5-{7B, 32B} 作为异构Agent对，HACRL 在 AIME 2025 上将 7B 模型准确率从约 40% 提升至 61%（+21%），32B 模型也同时获益。HACRL 最大化了样本利用效率，特别是在 rollout 生成成本高昂的数学推理场景中，共享验证数据显著减少了冗余计算。

当不同规模、不同能力的模型可以互相学习而不需要协同部署时，RL训练的效率边界被重新定义。

HF: huggingface.co/papers/2603.02604 | PaperScope: paperscope.ai/hf/2603.02604

02 / 10

Helios: 14B参数单H100实现19.5FPS实时长视频生成

119 upvotes 视频生成 · Helios Team

Helios 的标题用了「Real Real-Time」双重强调——它是首个在单张 NVIDIA H100 GPU 上实现 19.5 FPS 的 14B 参数视频生成模型，同时支持分钟级长视频生成，质量匹配强基线。三个关键突破让它区别于此前所有视频生成工作：

(1) 无需抗漂移技巧即可长视频稳定——不用 self-forcing、error-bank 或关键帧采样等常见启发式方法，Helios 依靠统一的输入表示和自回归扩散架构内在地保持时序一致性。(2) 无需标准加速技巧即可实时——不用 KV-cache、稀疏/线性注意力或量化，而是通过架构层面的重设计（统一输入表示 + 高效注意力机制）直接达到实时速度。(3) 训练无需并行/分片框架——在 80GB GPU 内存中可容纳最多四个 14B 模型，达到图像扩散模型级的 batch size。

19.5 FPS

单H100实时生成速度

14B

参数规模

分钟级

长视频支持

Helios 采用自回归扩散模型架构，关键创新在于统一输入表示：将条件帧和生成帧统一到同一个表示空间，使得模型可以原生地处理任意长度的视频序列。在质量方面，Helios 匹配了远更慢的基线模型，同时生成速度快了一个数量级以上。这意味着交互式视频生成和实时视频编辑正在从理论走向实践。

当14B视频生成模型可以在单GPU上实时运行时，视频生成的应用场景将发生根本性改变——从离线渲染走向实时交互。

HF: huggingface.co/papers/2603.04379 | PaperScope: paperscope.ai/hf/2603.04379

03 / 10

T2S-Bench & Structure-of-Thought: 让模型先构建文本结构再答题，平均+5.7%提升

102 upvotes 推理/提示 · Duke + UT Austin + Meta

T2S-Bench & SoT Overview — Structure-of-Thought (SoT) 在8个文本处理任务和3个模型家族上的一致性提升

人类处理复杂阅读任务时，会标记要点、推断关系、组织结构。Structure of Thought (SoT) 将这一思路转化为提示技术：显式引导模型先构建中间文本结构（关键节点+关系链接），然后再生成最终答案。这不是 CoT 的变体——CoT 关注推理链条，SoT 关注信息结构化，让模型在回答前先「画出思维导图」。

配套的 T2S-Bench 是首个专门评估文本到结构能力的基准，包含 1.8K 样本，覆盖 6 个科学领域和 32 种结构类型。对 45 个主流模型的评测揭示了巨大的改进空间：多跳推理任务平均准确率仅 52.1%，最强模型也只有 58.1%。

+5.7%

SoT 在 8 个任务上的平均提升

+8.6%

SoT + T2S-Bench 微调后提升

52.1%

多跳推理平均准确率（仍有巨大提升空间）

在 Qwen2.5-7B-Instruct 上，SoT 单独使用在 8 个文本处理任务上带来平均 +5.7% 提升；在 T2S-Bench 上微调后增益进一步提升至 +8.6%。结果表明显式文本结构化是一个通用的中间表示（IR），可以系统性地增强模型在检索、融合、生成等多种文本处理任务上的表现。

HF: huggingface.co/papers/2603.03790 | PaperScope: paperscope.ai/hf/2603.03790

04 / 10

Proact-VL: 主动式VideoLLM——让AI实时做游戏解说和引导

24 upvotes 实时交互 · MSRA + 深圳大学

Proact-VL Overview — Proact-VL 框架：实时解说（上）与主动引导（下）两大游戏AI伴侣场景

做一个好的 AI 游戏伴侣需要解决三个难题：(1) 在连续视频流下实现低延迟推理；(2) 自主判断何时该说话；(3) 控制内容质量和数量以满足实时约束——说太多会干扰体验，说太少又失去伴侣感。Proact-VL 正面攻克这三个问题，通过三大组件实现人类级的环境感知和交互。

框架设计包含：(1) Chunk-wise 输入输出：将视频流切分为固定长度的片段逐段处理；(2) 轻量主动响应机制：基于视觉和上下文线索自主决策何时回应；(3) 多层级损失函数：确保训练稳定性。配套构建了大规模 Live Gaming Benchmark，覆盖独立解说、多人联合解说、用户引导三种场景。

3 场景

独立解说/联合解说/用户引导

低延迟

chunk-wise实时处理

主动式

自主决策何时说话

实验表明 Proact-VL 在 TimeDiff 和 F1 等指标上优于现有方法，说明它更好地对齐了人类解说模式。同时保持了通用视频理解能力不下降——这是「专精不牺牲通用」的典型案例。

HF: huggingface.co/papers/2603.03447 | PaperScope: paperscope.ai/hf/2603.03447

05 / 10

MemSifter: 用小模型代理推理卸载LLM长期记忆检索

23 upvotes Agent记忆 · 人民大学

MemSifter Overview — MemSifter 架构：小模型代理推理 + 结果驱动的强化学习优化

LLM 长期记忆面临一个根本性权衡：简单存储检索不准，复杂索引计算太重。Memory Graph 等结构化增强方法需要大量预处理（摘要、实体提取、图构建），而且大部分记忆永远不会被重用，前期索引成本基本浪费。让工作 LLM 自己读记忆又太贵——双重负担。

MemSifter 的核心思路是将记忆检索卸载给一个小规模代理模型。小模型先对任务进行推理，理解需要什么信息，然后检索必要的记忆。索引阶段零重计算，推理阶段仅增加最小开销。优化小模型使用了任务结果导向的强化学习：奖励基于工作 LLM 实际完成任务的表现，而非检索本身的精度——这确保检索到的是真正对任务有帮助的记忆。

代理推理

小模型卸载记忆检索

结果导向

RL奖励基于任务完成度

8 基准

含Deep Research任务

在 8 个 LLM 记忆基准（包括 Deep Research 任务）上，MemSifter 在检索精度和最终任务完成度上达到或超过现有最优方法。模型权重、代码和训练数据均已开源。

HF: huggingface.co/papers/2603.03379 | PaperScope: paperscope.ai/hf/2603.03379

06 / 10

ArtHOI: 从视频先验做4D重建——零样本合成铰接物体的人机交互

19 upvotes 人体交互 · 港中文 + 南洋理工

ArtHOI Overview — ArtHOI：从单目视频先验重建人-铰接物体交互的4D场景

合成人与铰接物体（开冰箱、开柜门、开微波炉）的物理可信交互，在没有任何3D/4D监督的条件下极具挑战。现有零样本方法主要局限于刚性物体操作，无法建模铰接物体的部件级运动学约束。ArtHOI 将这个问题重新定义为从单目视频先验进行4D重建。

流程分两步：(1) 用视频扩散模型生成一段2D视频；(2) 将生成的视频作为监督信号，通过逆渲染重建几何一致且物理合理的4D场景。关键技术包括：基于光流的部件分割（用光流作为几何线索区分动态/静态区域）和解耦重建管线（先恢复物体铰接运动，再基于此合成人体动作，避免联合优化的单目歧义问题）。

零样本

无需3D/4D监督

铰接物体

冰箱/柜门/微波炉等

4D重建

单目视频→几何一致场景

在多种铰接场景上，ArtHOI 在接触精度、穿透减少和铰接保真度上均显著优于此前方法，将零样本交互合成从刚性操作扩展到了铰接物体领域。

HF: huggingface.co/papers/2603.04338 | PaperScope: paperscope.ai/hf/2603.04338

07 / 10

Phi-4-reasoning-vision: 微软15B开源多模态推理模型，数据质量仍是最大杠杆

13 upvotes 多模态推理 · Microsoft Research

微软发布 Phi-4-reasoning-vision-15B，一个紧凑的开源多模态推理模型。定位清晰：通用视觉-语言任务表现良好，数学和科学推理以及UI理解能力出色。报告详细分享了设计动机、数据选择、架构消融和训练洞见——是一份面向社区的实践指南。

三个核心发现：(1) 数据质量仍是最大杠杆——系统性的过滤、纠错和合成增强带来的提升最为显著，远超架构层面的调整；(2) 高分辨率动态分辨率编码器带来一致提升——准确感知是高质量推理的前提；(3) 推理/非推理混合训练+模式标记让单一模型在简单任务上给出快速直接答案，在复杂任务上启动链式推理。

15B

紧凑参数规模

开源

权重+代码完全开放

数据为王

过滤+纠错+合成是最大增益来源

在计算效率-精度 Pareto 前沿上，Phi-4-reasoning-vision 以十分之一甚至更少的推理计算和 token 消耗达到了与远更大模型相竞争的精度，特别是在数学和科学推理上。

HF: huggingface.co/papers/2603.03975 | PaperScope: paperscope.ai/hf/2603.03975

08 / 10

Memex(RL): 索引式经验记忆——Agent学会何时存、何时取、如何索引

11 upvotes Agent记忆 · Accenture

Memex Overview — Memex 架构：紧凑工作上下文 + 索引式外部经验数据库 + RL优化的读写策略

LLM Agent 在长horizon任务上被有限上下文窗口死死卡住。现有方案要么截断历史（有损），要么摘要压缩（丢失细节），要么全部塞外部记忆用相似性检索（在噪声片段海里捞针）。Memex 提出了一种索引式经验记忆机制：在紧凑的工作上下文中维护结构化摘要和稳定索引，完整的交互历史存储在外部数据库中。

核心创新在于 MemexRL：用强化学习训练 Agent 自己学会四件事——(1) 什么该摘要，(2) 什么该归档，(3) 如何建索引，(4) 何时解引用取回完整证据。奖励塑形专门针对有限上下文预算下的索引记忆使用进行优化。这样做的好处是压缩上下文但不丢弃证据——Agent 可以随时通过索引取回原始数据。

索引记忆

压缩上下文但不丢证据

RL优化

Agent学会存取策略

更小上下文

使用更紧凑的工作上下文完成任务

理论分析表明 Memex 循环在有限解引用次数下可保持决策质量，同时有效上下文计算量随历史增长保持有界。实验在长horizon任务上验证：Memex Agent 使用显著更小的工作上下文即可提升任务成功率。

HF: huggingface.co/papers/2603.04257 | PaperScope: paperscope.ai/hf/2603.04257

09 / 10

CubeComposer: 立方体分解+时空自回归，首次实现原生4K 360°视频生成

10 upvotes 360°视频 · 港中文 + 腾讯PCG

CubeComposer Overview — CubeComposer vs 现有方法：首次原生4K分辨率生成360°视频（无需超分辨率后处理）

VR 沉浸体验对 360° 全景视频的分辨率要求极高（原生 4K 即 3840×1920），但现有方法受限于标准扩散模型的全注意力计算，原生分辨率上限仅约 1K，只能通过后处理超分辨率勉强提升——外部上采样缺乏生成推理能力，高分辨率但细节缺失。

CubeComposer 的核心思路是立方体映射分解 + 时空自回归：将 360° 视频表示为六面立方体贴图，逐块生成而非一次性生成整个全景，从而大幅降低峰值内存。三项关键设计：(1) 时空自回归策略：精心规划的跨面+跨时间窗口生成顺序，确保一致性；(2) 立方体面上下文管理：稀疏上下文注意力提升效率；(3) 连续性感知技术：立方体感知位置编码、填充和混合，消除边界接缝。

4K 原生

3840×1920无需超分

6面

立方体贴图分解

时空AR

自回归扩散逐块生成

在基准数据集上，CubeComposer 在原生分辨率和视觉质量上均超越现有方法，首次证明扩散模型可以原生生成 4K 360° 视频，为 VR 内容创作开辟了实用路径。

HF: huggingface.co/papers/2603.04291 | PaperScope: paperscope.ai/hf/2603.04291

10 / 10

V₁: 统一生成与配对自验证，Pass@1提升最高10%

10 upvotes 推理验证 · UC Berkeley + Together AI + NVIDIA

V₁ Overview — V₁ 框架：不确定性引导的锦标赛排名 + 配对自验证的联合RL训练

测试时扩展（test-time scaling）通过采样多个候选解并聚合来提升效果，但瓶颈在于验证：如何可靠地从候选集中识别正确解？现有方法通常独立打分每个候选，但实验发现模型在配对比较（pairwise comparison）时验证准确率远高于独立打分。

V₁ 包含两个组件：(1) V₁-Infer——不确定性引导的锦标赛排名算法，将有限的验证计算预算动态分配给相对正确性最不确定的候选对；(2) V₁-PairRL——联合训练单一模型同时作为生成器和配对自验证器，确保验证器适应生成器不断演化的分布。

+10%

Pass@1 相比逐点验证提升

+8.7%

V₁-PairRL 相比标准RL的 base Pass@1 提升

配对验证

比逐点评分更准确

在代码生成（LiveCodeBench、CodeContests、SWE-Bench）和数学推理（AIME、HMMT）基准上，V₁-Infer 的 Pass@1 比逐点验证提升最高 10%，且效率显著更高。V₁-PairRL 在测试时扩展增益上比标准 RL 提升 7-9%。

HF: huggingface.co/papers/2603.04304 | PaperScope: paperscope.ai/hf/2603.04304

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或

其余论文速览 · #11-21

#	论文	领域	Votes	一句话
11	AgilePruner	模型压缩	6	注意力+多样性自适应视觉Token剪枝实验研究
12	InfinityStory	视频生成	5	无限长视频生成：世界一致性+角色感知控制
13	RIVER	视频评测	4	视频LLM实时交互基准
14	SWE-CI	Coding Agent	3	持续集成场景下的代码Agent维护评测
15	MUSE	安全评测	2	多模态统一安全评估平台
16	Specificity-aware RL	细粒度分类	2	开放世界细粒度分类的特异性感知RL
17	EmbodiedSplat	3D理解	1	在线前馈语义3DGS开放词汇场景理解
18	BeamPERL	参数高效RL	1	可验证奖励+参数高效RL让小模型专精代码
19	MIBURI	手势合成	1	面向表达性交互手势合成
20	GroupEnsemble	目标检测	1	DETR不确定性估计的高效集成方法
21	HDINO	目标检测	0	简洁高效的开放词汇检测器

今日趋势

Agent 记忆双响：MemSifter（小模型代理检索）和 Memex(RL)（索引式经验记忆+RL）从不同路径攻克同一问题——LLM Agent 的长期记忆管理。两者都指向一个方向：让 Agent 自主学会记忆策略，而非依赖手工设计。
视频生成从「能生成」到「能实时」：Helios 的 19.5 FPS 和 CubeComposer 的原生 4K 360° 标志着视频生成正在突破速度和分辨率的双重瓶颈，交互式应用和 VR 内容创作的门槛大幅降低。
结构化思维超越链式推理：SoT 的 +5.7% 一致性提升表明，在 CoT（链式推理）之外，「先结构化再推理」是一个通用且被低估的增强维度。

参考来源

HACRL — huggingface.co/papers/2603.02604
Helios — huggingface.co/papers/2603.04379
T2S-Bench & SoT — huggingface.co/papers/2603.03790
Proact-VL — huggingface.co/papers/2603.03447
MemSifter — huggingface.co/papers/2603.03379
ArtHOI — huggingface.co/papers/2603.04338
Phi-4-reasoning-vision — huggingface.co/papers/2603.03975
Memex(RL) — huggingface.co/papers/2603.04257
CubeComposer — huggingface.co/papers/2603.04291
V₁ — huggingface.co/papers/2603.04304

HF Papers 日报 | 2026-03-05