📄 论文日报 · HF Daily

HF Papers 日报 | 2026-02-26

音视频联合生成三连发,Agent RL 训练稳定性破局

🗓 2026.02.26
📑 31 篇论文, 10 篇深度解读
🔥 Top 1: 49 votes
📰 PaperScope Editorial

📋 速览目录 · 全部 31 篇

# 论文 领域 Votes 一句话
1HyTRec推荐系统49混合时序注意力处理万级行为序列,Hit Rate 提升 8%+
2MolHITAI4Science49层级离散扩散模型首次在图扩散中实现近完美分子有效性
3SkyReels-V4视频生成381080p/32FPS/15s 音视频联合生成/修复/编辑一步到位
4DreamID-Omni视频生成33对称条件 DiT 实现多人身份-音色解耦,超越 Veo3/Sora2
5ARLArenaAgent RL204 维度分解 Agent RL 崩溃根因,SAMPO 稳定训练
6Solaris世界模型191264 万帧 Minecraft 多人视角世界模型,全开源
7DualPathLLM 推理16双路径 KV-Cache 加载,推理吞吐提升近 2 倍
8GUI-LibraGUI Agent12动作感知 SFT + 部分可验证 RL,AndroidWorld +15.6%
9Sphere Encoder图像生成11球面编码单步生成媲美多步扩散,推理成本极低
10JavisDiT++视频生成10仅 1M 公开数据的统一音视频生成框架,全开源
11VecGlypher字形生成9语言模型统一矢量字形生成
12World Guidance世界模型7条件空间中的世界建模引导动作生成
13Statics to Dynamics图像编辑6物理感知图像编辑的潜在转移先验
14Hepato-LLaVA医学 AI5稀疏拓扑注意力的肝癌多模态大模型
15NanoKnowLLM 分析4探测语言模型的知识边界
16SeaCache扩散加速4频谱演化感知缓存加速扩散模型
17Tri-Modal Masked Diffusion多模态3三模态掩码扩散模型的设计空间
18Dropping Anchor3D 视觉3球谐函数做稀疏视角高斯泼溅
19MCP Tool DescriptionsAgent2MCP 工具描述有异味!改善 AI Agent 工具使用
20UniVBench视频评测2统一视频基础模型评测
21Revisiting Text Ranking信息检索2重新审视深度研究中的文本排序
22
23
24
25
26
27
28
29
30
31

今天最显著的信号:音视频联合生成赛道集中爆发。SkyReels-V4(1080p/32FPS/15s + 同步音频)、DreamID-Omni(多人身份-音色解耦)、JavisDiT++(仅 1M 数据超越先前方法)三篇同日出现,说明视频生成正在从"画面"进化到"视听一体"。另一条主线是 Agent 系统的工程成熟度在加速:ARLArena 拆解了 Agent RL 训练崩溃的根因并给出 SAMPO 稳定训练方案,DualPath 则从推理基础设施层面把 KV-Cache 加载吞吐提升了近 2 倍。

Insight:当三篇独立团队不约而同做音视频联合生成时,说明这不是偶然——统一多模态生成正在从 Demo 走向工程化竞争,下一个战场大概率是实时交互式视听内容创作。

01 / 10

HyTRec: 混合时序注意力架构,万级行为序列推荐又快又准

49 upvotes 得物 + 武汉大学 + 中科大 + 北航
HyTRec Overview
HyTRec: 线性注意力负责长期稳定偏好,Softmax 注意力捕捉近期交互信号,两条通路协同处理万级行为序列

推荐系统的历史行为序列越来越长——用户在电商、内容平台上积累的点击、购买记录动辄上万条。传统 Softmax 注意力在序列长度上是 O(n²) 复杂度,处理万级序列时计算代价极高;而单纯用线性注意力虽然速度快,但对近期交互的精确建模能力不足,容易错失短期兴趣的动态变化。

HyTRec 提出了一个双通路设计:线性注意力专门处理长期稳定偏好(万级历史中"这个用户总体偏好什么"),Softmax 注意力专注捕捉近期交互信号("最近这几天他看了什么")。两条通路的输出通过可学习融合机制聚合,最终形成丰富的用户表示。此外,论文还引入了 TADN(Temporal-Aware Delta Network),对近期交互信号自动施加时效性权重——越新的行为贡献越大,但并非简单的线性衰减,而是由网络自适应学习的非线性时序权重。

> 8%
Hit Rate 提升(超长序列)
线性
推理速度(vs 二次方)
万级
行为序列处理能力

在多个公开基准上,HyTRec 对超长行为序列的 Hit Rate 提升超过 8%,同时推理速度维持线性复杂度。这对于实际生产系统意义重大——不需要截断用户历史,就能在可接受延迟内完成推荐。工业界合作(得物)也意味着该方案经过了真实用户规模的验证。

用两条注意力通路分别抓长期偏好和短期兴趣,万级行为序列推荐又快又准。
02 / 10

MolHIT: 层级离散扩散模型,首次在图扩散中实现近完美分子有效性

49 upvotes KAIST + LG AI Research
MolHIT Overview
MolHIT: 化学先验约束的层级离散扩散,原子编码解耦,图扩散首次达到近 100% 有效性

分子生成是 AI for Science 的核心任务之一。现有图扩散方法面临一个顽疾:生成的分子结构很容易违反化学键的价态规则,导致有效性(validity)远低于基于 SMILES 字符串的 1D 方法。为什么图扩散的有效性这么难提升?根本原因在于:图扩散在节点和边上的噪声添加完全独立,没有任何化学约束,去噪过程中很容易产生化学上不合法的原子-键组合。

MolHIT 提出了两个关键设计:解耦原子编码——将原子类型和化合价分开建模,让模型学习到「碳原子最多 4 个键」这类化学先验;化学先验作为额外离散类别——在离散扩散的类别空间中加入化学先验约束,引导去噪轨迹始终在合法化学结构附近运动。层级扩散则从粗到细地生成分子:先确定环状骨架,再填充官能团细节。

MOSES SOTA
分子生成基准
近 100%
分子有效性
图扩散首次
超越 1D 基线

在 MOSES 基准上,MolHIT 不仅是图扩散方法中首次达到接近 100% 有效性,综合性能还超越了 1D 字符串方法(如 SMILES VAE)——这意味着图扩散不再需要在有效性上妥协来换取结构多样性。对于药物发现和材料科学领域,这是一个重要的里程碑。

用化学先验约束的层级离散扩散,让图扩散首次达到接近 100% 的分子有效性。
03 / 10

SkyReels-V4: 双流 MMDiT 统一视频+音频的生成/修复/编辑,1080p 电影级视听一步到位

38 upvotes 昆仑万维 Skywork AI
SkyReels-V4 Overview
SkyReels-V4: 双流 MMDiT 架构,视频和音频分支共享多模态文本编码器,支持生成/修复/编辑的统一 inpainting 式任务框架

视频生成模型已经能生成高质量画面,但声音呢?现有的视频生成模型绝大多数输出的是"哑巴视频"——需要单独跑一个音频生成模型,再做音视频对齐。这种两阶段方案存在根本性问题:画面和声音在时间轴上无法保证精确同步,且两个模型的语义理解往往不一致(视频里出现的动作和对应的声音效果难以完美匹配)。

SkyReels-V4 提出了双流 MMDiT(Multi-Modal Diffusion Transformer)架构:视频流和音频流作为两个独立的 Transformer 分支,但共享同一个多模态大语言模型(MLLM)作为文本编码器。两个分支在每个 Transformer 层通过跨流注意力互相感知对方的生成状态,确保画面和声音在语义层面完全对齐。在训练框架上,所有任务(文本生成视频、视频修复、视频编辑)被统一为 inpainting 风格——将要生成/修复的部分设为"空白遮罩",已知内容作为条件,极大简化了多任务训练的复杂度。

1080p / 32FPS
输出分辨率与帧率
15 秒
最大时长
音视频同步
联合生成

在效率上,SkyReels-V4 采用低分辨率全序列生成 + 高分辨率关键帧细化的两阶段流程,在保证质量的同时显著降低计算成本。1080p、32FPS、15 秒的视听内容,完全通过一次模型推理完成生成——这在开源社区中尚属首次达到这一规格。

双流 MMDiT 统一视频+音频的生成/修复/编辑,1080p 电影级视听内容一步到位。
04 / 10

DreamID-Omni: 对称条件 DiT + 双层解耦,多人身份-音色不再张冠李戴

33 upvotes 清华大学 + 字节跳动 ByteDance
DreamID-Omni Overview
DreamID-Omni: 对称条件 DiT 架构,信号级同步 RoPE + 语义级结构化描述,实现多人场景的身份-音色精确解耦

想象这样一个场景:你想生成一段视频,里面有三个人物,每个人有自己的声音和外貌。现有的音视频生成模型在单人场景下勉强可用,但到了多人场景几乎全军覆没——不同人的声音会窜台,或者某个人的脸型会影响另一个人的声音特征,身份和音色的边界极度混乱。

DreamID-Omni 从根本上重新设计了架构来解决这个问题。核心是对称条件 DiT(Symmetric Conditional DiT):视频分支和音频分支以完全对称的方式互相提供条件信息,而非一方主导另一方跟随。在解耦机制上,论文提出双层解耦(Dual-Level Disentanglement):信号层通过同步 RoPE(Rotary Position Embedding)对齐视频帧和音频帧的时序位置,确保帧级同步;语义层通过结构化描述(Structured Captions)为每个人物独立标注身份-音色对应关系,防止语义层面的跨人混淆。

全面 SOTA
音视频一致性评测
超越闭源
优于 Veo3 / Sora2
多人解耦
身份-音色独立控制

通过多任务渐进式训练(Multi-Task Progressive Training),模型先在单人场景上学习基础身份-音色绑定,再逐步扩展到多人场景。最终评测中,DreamID-Omni 在音视频一致性指标上全面 SOTA,且明确超越了 Veo3 和 Sora2 等商业模型——这对于开源社区来说是一个重要的里程碑。

对称条件 DiT + 双层解耦,让多人场景的身份和声音不再张冠李戴。
05 / 10

ARLArena: 把 Agent RL 训练崩溃拆成四个维度逐个击破,SAMPO 让训练不再靠运气

20 upvotes UCLA
ARLArena Overview
ARLArena: 标准化测试床 + 4 维策略梯度分解,蒸馏为 SAMPO 稳定训练方法,在 ALFWorld/Sokoban 等任务上一致稳定

用强化学习训练 LLM Agent 是当前最热门的方向之一,但从业者都知道一个令人沮丧的现象:Agent RL 训练极不稳定。不同超参数、不同随机种子、甚至不同的任务描述措辞,都可能让训练要么发散、要么陷入奖励坍缩(reward hacking)。大量工程时间被花费在"为什么这次训练崩了"这个问题上,缺乏系统性的诊断框架。

ARLArena 的出发点是:先构建一个干净的标准化测试床,再系统拆解训练崩溃的根因。研究团队将策略梯度分解为 4 个核心维度:(1)优势估计——组内归一化 vs 跨轨迹归一化的影响;(2)KL 正则化——惩罚力度与探索效率的权衡;(3)熵控制——防止策略过早确定性坍缩;(4)奖励塑形——稀疏奖励 vs 中间奖励的训练动态差异。通过系统消融,他们发现大多数崩溃案例可以归因到这 4 个维度中的 1-2 个失调。

4 维度
崩溃根因分解
SAMPO
稳定训练方法
一致稳定
ALFWorld / Sokoban

基于系统分析,团队蒸馏出 SAMPO(Stable Agentic Policy Optimization)方法,将 4 个维度的最优实践整合为一套统一的训练配方。在 ALFWorld、Sokoban 等代表性 Agent 任务上,SAMPO 在多个随机种子下展现出一致稳定的训练曲线——这在以往是极难实现的。

把 Agent RL 训练崩溃的原因拆成四个维度逐个击破,SAMPO 让 Agent 训练不再靠运气。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录