书小生 HF Daily 0302
📄 论文日报 · HF Daily

HF Papers 日报 | 2026-03-02

扩散语言模型统一框架 102 票领跑,CUDA Agent 用强化学习写 GPU 内核

🗓 2026.03.02
📑 22 篇论文, 10 篇深度解读
🔥 Top 1: 102 votes
📰 PaperScope Editorial

📋 速览目录 · 全部 22 篇

# 论文 领域 Votes 一句话
1dLLM扩散语言模型102统一框架标准化扩散语言模型核心组件,降低入门和复现门槛
2CUDA AgentAgent × 系统优化62Agentic RL 训练 LLM 生成超编译器性能的 GPU 内核
3SpatialScore文生图 × 奖励模型44字节空间感知奖励模型 + RL 微调让扩散模型理解空间关系
4RITranslation多语言评测37自动化翻译流水线解决多语言 LLM 评测中的翻译损耗
5Mode Seeking视频生成31短视频学质量、长视频学连贯,分治加速长视频生成
6LK Losses推理加速17反向 KL 损失直接优化投机解码接受率,提升 36%
7CiteAudit学术诚信 × LLM15GPT-4o 有 15.8% 幻觉引用,构建引用验证基准
8线性正交表征表征学习理论14组合泛化的充要条件:表征必须线性且正交
9InfoNCE 高斯对比学习理论11InfoNCE 优化使表征空间收敛到高斯分布
10LCD 加速 MIGM图像生成加速8学习隐式动力学跳过冗余步骤,2.5 倍加速无损
11LongVideo-R1视频理解8低成本长视频理解的智能导航
12Memory Caching序列建模7带增长记忆的 RNN 架构
13Ref-Adv多模态7多模态 LLM 在指代表达任务中的视觉推理
14SenCache推理加速6基于敏感度感知的扩散模型推理加速
15PRISM对齐4基于情境学习的多元化推理
16DLEBench图像编辑3小尺度物体编辑能力评测
17拍照反馈计算摄影3拍出好照片的可行动反馈系统
18DUET-VLMVLM 效率3双阶段统一高效 Token 缩减
19Trie 向量化推理优化2LLM 约束解码高效实现
20CL4SE代码2软件工程任务的上下文学习基准
21强化蒸馏蒸馏1强化感知知识蒸馏迁移 LLM 推理能力
22认知模板认知科学0认知模型与 AI 算法的语言处理模板设计

今天 22 篇论文,两条主线清晰:扩散模型全面渗透语言建模——dLLM 用统一框架把散落各处的扩散语言模型组件标准化,102 票领跑说明社区对「非自回归」路线的期待正在升温;Agent 从写代码走向写内核——CUDA Agent 让 LLM Agent 用强化学习直接优化 GPU 内核,性能超 PyTorch 编译器,Agent 能力边界再次外扩。

Insight:当扩散模型开始挑战自回归在语言领域的垄断地位,当 Agent 开始替代人类系统工程师写底层优化代码,AI 研究的两个前沿——生成范式多样化Agent 能力纵深化——正在同步加速。

01 / 10

dLLM: 把扩散语言模型的散装组件装进一个统一框架

102 upvotes 扩散语言模型
dLLM Overview
dLLM: 统一扩散语言模型框架——噪声调度、去噪架构、训练目标、采样策略模块化设计

扩散语言模型(DLM)正快速进化,但各家实现散落在不同代码库中,复现困难、对比不公平。dLLM 是一个统一框架,把当前 DLM 研究中反复出现的核心组件标准化——包括噪声调度、去噪网络架构、训练目标和采样策略。

框架基于 masked diffusion 范式,将离散 token 的前向过程建模为逐步 mask,逆过程则预测被 mask 的 token。dLLM 实现了模块化设计:噪声调度器、去噪器、损失函数、采样器均可独立替换。支持 MDLM、SEDD、GenMD 等主流方法的统一训练和评估。

28.49
GPT-2 级别困惑度
模块化
噪声/去噪/损失/采样独立替换
HF 集成
Transformers 原生支持

在 OpenWebText 上训练 110M/340M 参数模型,dLLM 的复现结果与原始论文高度一致,且发现一些此前未报告的组合配置效果更好。框架开源,支持 Hugging Face Transformers 集成。

dLLM 为扩散语言模型研究提供了「PyTorch Lightning 级别」的标准化基础设施,降低了该方向的入门和复现门槛。
02 / 10

CUDA Agent: 用 Agentic RL 让 LLM 写出超越编译器的 GPU 内核

54 upvotes Agent × 系统优化
CUDA Agent Overview
CUDA Agent: 大规模 Agentic RL 训练流程——编写 → 编译 → 执行 → 性能奖励 → 迭代优化

GPU 内核优化是深度学习性能的关键瓶颈,但需要极深的硬件专业知识。现有 LLM 在通用编程上表现出色,但生成的 CUDA 内核性能远不如手写或编译器优化版本。

CUDA Agent 提出了一个大规模 Agentic RL 训练流程。首先用 671 个精选 CUDA 编程题(覆盖 13 个算子类别)构建训练环境,然后让 Agent 在「编写代码 → 编译 → 执行 → 根据正确性和性能获得奖励」的循环中学习。奖励信号直接基于 GPU 实际运行速度,而非静态代码质量评分。

49.6%
超越 torch.compile
671 题
13 类算子训练环境
自纠错
多轮交互优化

CUDA Agent 在 49.6% 的测试题上超越了 PyTorch 的 torch.compile 编译器,这是 LLM 首次在 CUDA 内核生成上达到编译器级别性能。Agent 还展现了自纠错能力——在多轮交互中逐步优化代码质量和执行效率。

CUDA Agent 证明了 LLM + 强化学习 + 执行反馈的闭环可以让 AI 写出比编译器更快的底层 GPU 代码。
03 / 10

字节 Seed: 用奖励模型让文生图真正理解空间关系

44 upvotes 文生图 × 奖励模型
SpatialScore Overview
SpatialScore: 20 万+条空间标注 VQA 数据 + 空间感知奖励模型 + RL 微调扩散模型

文生图模型在视觉质量上已经非常出色,但面对复杂的空间描述(如「A 在 B 左边,C 在 D 上面」)仍然经常出错,用户往往需要反复生成才能得到满意的空间布局。

来自字节跳动 Seed 团队和北大的研究者提出了一个空间感知奖励模型 SpatialScore。首先构建了 20 万+条带空间标注的 VQA 数据(SpatialSQA),让模型学会判断「生成的图片是否符合空间描述」。然后用 SpatialScore 作为奖励信号,通过 RL 微调(DPO/在线 RL)优化扩散模型的空间生成能力。

85.7%
空间评估准确率
+12.3%
T2I-CompBench 空间指标提升
超越 GPT-4o
空间理解 79.5% → 85.7%

SpatialScore 在空间评估上的准确率达到 85.7%,显著优于 GPT-4o(79.5%)和 Gemini-2.0(68.8%)。经过 RL 微调的 FLUX.1-dev 在 T2I-CompBench 空间指标上提升 12.3%,且不损害整体图像质量。

字节用专门的空间奖励模型 + RL 微调,让扩散模型终于学会了「上下左右」。
04 / 10

RITranslation: 自动化翻译评测基准的高效流水线

37 upvotes 多语言评测 · INSAIT + ETH Zurich
RITranslation Overview
RITranslation: 三阶段翻译流程——初始翻译 → 回译检测 → 质量评分修正

多语言 LLM 评估的可靠性正受到翻译质量不一致的严重影响。现有的翻译基准常常存在语义漂移和上下文丢失,导致评估结果误导性很大。

来自 INSAIT 和 ETH Zurich 的团队提出 RITranslation(Recovered in Translation)流水线。核心设计是一个三阶段翻译流程:(1) 用 LLM 进行初始翻译;(2) 通过回译(back-translation)检测语义偏移;(3) 用专门的质量评分模型筛选并修正翻译。整个流程端到端自动化,覆盖 7 种语言 × 6 个主流基准

96.2%
语义保持率
> 0.95
排名一致性 (Kendall τ)
7 × 6
语言 × 基准覆盖

翻译后的基准在语义保持率达 96.2%,远高于此前的机器翻译方案(约 82%)。在 7 种语言上的评估结果与英文原版的排名一致性 > 0.95(Kendall τ),确保了跨语言评估的公平性。

一条自动化流水线解决了多语言 LLM 评测中的「翻译损耗」问题,让非英语评测变得可靠。
05 / 10

Mode Seeking + Mean Seeking: 长视频生成的分治加速策略

31 upvotes 视频生成

将视频生成从几秒扩展到几分钟面临一个关键瓶颈:短视频数据丰富且高质量,但连贯的长视频数据稀缺且局限于少数领域。

论文提出了一种分治训练范式。核心思路是将长视频生成拆分为两个阶段:(1) Mode Seeking 阶段——用短视频数据训练模型掌握高保真的局部生成能力(每个片段追求最优模式);(2) Mean Seeking 阶段——用少量长视频数据微调模型的全局连贯性(在片段间寻求一致的均值分布)。两个阶段的训练目标不同但互补。

512+ 帧
长视频生成
4× 降低
计算成本
FVD 优于基线
质量保持

该方法在 512 帧以上的长视频生成中保持了视觉质量和时间连贯性,同时训练效率显著提升——相比直接在长视频上训练,计算成本降低约 4 倍。生成的视频在 FVD 指标上优于直接训练的基线。

用短视频学质量、用长视频学连贯,分治策略让长视频生成既快又好。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录