扩散语言模型统一框架 102 票领跑，CUDA Agent 用强化学习写 GPU 内核｜HF 日报 0302

📋 速览目录 · 全部 22 篇

#	论文	领域	Votes	一句话
1	dLLM	扩散语言模型	102	统一框架标准化扩散语言模型核心组件，降低入门和复现门槛
2	CUDA Agent	Agent × 系统优化	62	Agentic RL 训练 LLM 生成超编译器性能的 GPU 内核
3	SpatialScore	文生图 × 奖励模型	44	字节空间感知奖励模型 + RL 微调让扩散模型理解空间关系
4	RITranslation	多语言评测	37	自动化翻译流水线解决多语言 LLM 评测中的翻译损耗
5	Mode Seeking	视频生成	31	短视频学质量、长视频学连贯，分治加速长视频生成
6	LK Losses	推理加速	17	反向 KL 损失直接优化投机解码接受率，提升 36%
7	CiteAudit	学术诚信 × LLM	15	GPT-4o 有 15.8% 幻觉引用，构建引用验证基准
8	线性正交表征	表征学习理论	14	组合泛化的充要条件：表征必须线性且正交
9	InfoNCE 高斯	对比学习理论	11	InfoNCE 优化使表征空间收敛到高斯分布
10	LCD 加速 MIGM	图像生成加速	8	学习隐式动力学跳过冗余步骤，2.5 倍加速无损
11	LongVideo-R1	视频理解	8	低成本长视频理解的智能导航
12	Memory Caching	序列建模	7	带增长记忆的 RNN 架构
13	Ref-Adv	多模态	7	多模态 LLM 在指代表达任务中的视觉推理
14	SenCache	推理加速	6	基于敏感度感知的扩散模型推理加速
15	PRISM	对齐	4	基于情境学习的多元化推理
16	DLEBench	图像编辑	3	小尺度物体编辑能力评测
17	拍照反馈	计算摄影	3	拍出好照片的可行动反馈系统
18	DUET-VLM	VLM 效率	3	双阶段统一高效 Token 缩减
19	Trie 向量化	推理优化	2	LLM 约束解码高效实现
20	CL4SE	代码	2	软件工程任务的上下文学习基准
21	强化蒸馏	蒸馏	1	强化感知知识蒸馏迁移 LLM 推理能力
22	认知模板	认知科学	0	认知模型与 AI 算法的语言处理模板设计

今天 22 篇论文，两条主线清晰：扩散模型全面渗透语言建模——dLLM 用统一框架把散落各处的扩散语言模型组件标准化，102 票领跑说明社区对「非自回归」路线的期待正在升温；Agent 从写代码走向写内核——CUDA Agent 让 LLM Agent 用强化学习直接优化 GPU 内核，性能超 PyTorch 编译器，Agent 能力边界再次外扩。

Insight：当扩散模型开始挑战自回归在语言领域的垄断地位，当 Agent 开始替代人类系统工程师写底层优化代码，AI 研究的两个前沿——生成范式多样化和Agent 能力纵深化——正在同步加速。

01 / 10

dLLM: 把扩散语言模型的散装组件装进一个统一框架

102 upvotes 扩散语言模型

dLLM Overview — dLLM: 统一扩散语言模型框架——噪声调度、去噪架构、训练目标、采样策略模块化设计

扩散语言模型（DLM）正快速进化，但各家实现散落在不同代码库中，复现困难、对比不公平。dLLM 是一个统一框架，把当前 DLM 研究中反复出现的核心组件标准化——包括噪声调度、去噪网络架构、训练目标和采样策略。

框架基于 masked diffusion 范式，将离散 token 的前向过程建模为逐步 mask，逆过程则预测被 mask 的 token。dLLM 实现了模块化设计：噪声调度器、去噪器、损失函数、采样器均可独立替换。支持 MDLM、SEDD、GenMD 等主流方法的统一训练和评估。

28.49

GPT-2 级别困惑度

模块化

噪声/去噪/损失/采样独立替换

HF 集成

Transformers 原生支持

在 OpenWebText 上训练 110M/340M 参数模型，dLLM 的复现结果与原始论文高度一致，且发现一些此前未报告的组合配置效果更好。框架开源，支持 Hugging Face Transformers 集成。

dLLM 为扩散语言模型研究提供了「PyTorch Lightning 级别」的标准化基础设施，降低了该方向的入门和复现门槛。

HF: huggingface.co/papers/2602.22661 | PaperScope: paperscope.ai/hf/2602.22661

02 / 10

CUDA Agent: 用 Agentic RL 让 LLM 写出超越编译器的 GPU 内核

54 upvotes Agent × 系统优化

CUDA Agent Overview — CUDA Agent: 大规模 Agentic RL 训练流程——编写 → 编译 → 执行 → 性能奖励 → 迭代优化

GPU 内核优化是深度学习性能的关键瓶颈，但需要极深的硬件专业知识。现有 LLM 在通用编程上表现出色，但生成的 CUDA 内核性能远不如手写或编译器优化版本。

CUDA Agent 提出了一个大规模 Agentic RL 训练流程。首先用 671 个精选 CUDA 编程题（覆盖 13 个算子类别）构建训练环境，然后让 Agent 在「编写代码 → 编译 → 执行 → 根据正确性和性能获得奖励」的循环中学习。奖励信号直接基于 GPU 实际运行速度，而非静态代码质量评分。

49.6%

超越 torch.compile

671 题

13 类算子训练环境

自纠错

多轮交互优化

CUDA Agent 在 49.6% 的测试题上超越了 PyTorch 的 torch.compile 编译器，这是 LLM 首次在 CUDA 内核生成上达到编译器级别性能。Agent 还展现了自纠错能力——在多轮交互中逐步优化代码质量和执行效率。

CUDA Agent 证明了 LLM + 强化学习 + 执行反馈的闭环可以让 AI 写出比编译器更快的底层 GPU 代码。

HF: huggingface.co/papers/2602.24286 | PaperScope: paperscope.ai/hf/2602.24286

03 / 10

字节 Seed: 用奖励模型让文生图真正理解空间关系

44 upvotes 文生图 × 奖励模型

SpatialScore Overview — SpatialScore: 20 万+条空间标注 VQA 数据 + 空间感知奖励模型 + RL 微调扩散模型

文生图模型在视觉质量上已经非常出色，但面对复杂的空间描述（如「A 在 B 左边，C 在 D 上面」）仍然经常出错，用户往往需要反复生成才能得到满意的空间布局。

来自字节跳动 Seed 团队和北大的研究者提出了一个空间感知奖励模型 SpatialScore。首先构建了 20 万+条带空间标注的 VQA 数据（SpatialSQA），让模型学会判断「生成的图片是否符合空间描述」。然后用 SpatialScore 作为奖励信号，通过 RL 微调（DPO/在线 RL）优化扩散模型的空间生成能力。

85.7%

空间评估准确率

+12.3%

T2I-CompBench 空间指标提升

超越 GPT-4o

空间理解 79.5% → 85.7%

SpatialScore 在空间评估上的准确率达到 85.7%，显著优于 GPT-4o（79.5%）和 Gemini-2.0（68.8%）。经过 RL 微调的 FLUX.1-dev 在 T2I-CompBench 空间指标上提升 12.3%，且不损害整体图像质量。

字节用专门的空间奖励模型 + RL 微调，让扩散模型终于学会了「上下左右」。

HF: huggingface.co/papers/2602.24233 | PaperScope: paperscope.ai/hf/2602.24233

04 / 10

RITranslation: 自动化翻译评测基准的高效流水线

37 upvotes 多语言评测 · INSAIT + ETH Zurich

RITranslation Overview — RITranslation: 三阶段翻译流程——初始翻译 → 回译检测 → 质量评分修正

多语言 LLM 评估的可靠性正受到翻译质量不一致的严重影响。现有的翻译基准常常存在语义漂移和上下文丢失，导致评估结果误导性很大。

来自 INSAIT 和 ETH Zurich 的团队提出 RITranslation（Recovered in Translation）流水线。核心设计是一个三阶段翻译流程：(1) 用 LLM 进行初始翻译；(2) 通过回译（back-translation）检测语义偏移；(3) 用专门的质量评分模型筛选并修正翻译。整个流程端到端自动化，覆盖 7 种语言 × 6 个主流基准。

96.2%

语义保持率

> 0.95

排名一致性 (Kendall τ)

7 × 6

语言 × 基准覆盖

翻译后的基准在语义保持率达 96.2%，远高于此前的机器翻译方案（约 82%）。在 7 种语言上的评估结果与英文原版的排名一致性 > 0.95（Kendall τ），确保了跨语言评估的公平性。

一条自动化流水线解决了多语言 LLM 评测中的「翻译损耗」问题，让非英语评测变得可靠。

HF: huggingface.co/papers/2602.22207 | PaperScope: paperscope.ai/hf/2602.22207

05 / 10

Mode Seeking + Mean Seeking: 长视频生成的分治加速策略

31 upvotes 视频生成

将视频生成从几秒扩展到几分钟面临一个关键瓶颈：短视频数据丰富且高质量，但连贯的长视频数据稀缺且局限于少数领域。

论文提出了一种分治训练范式。核心思路是将长视频生成拆分为两个阶段：(1) Mode Seeking 阶段——用短视频数据训练模型掌握高保真的局部生成能力（每个片段追求最优模式）；(2) Mean Seeking 阶段——用少量长视频数据微调模型的全局连贯性（在片段间寻求一致的均值分布）。两个阶段的训练目标不同但互补。

512+ 帧

长视频生成

4× 降低

计算成本

FVD 优于基线

质量保持

该方法在 512 帧以上的长视频生成中保持了视觉质量和时间连贯性，同时训练效率显著提升——相比直接在长视频上训练，计算成本降低约 4 倍。生成的视频在 FVD 指标上优于直接训练的基线。

用短视频学质量、用长视频学连贯，分治策略让长视频生成既快又好。

HF: huggingface.co/papers/2602.24289 | PaperScope: paperscope.ai/hf/2602.24289

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或