📋 速览目录 · 全部 22 篇
| # | 论文 | 领域 | Votes | 一句话 |
|---|---|---|---|---|
| 1 | dLLM | 扩散语言模型 | 102 | 统一框架标准化扩散语言模型核心组件,降低入门和复现门槛 |
| 2 | CUDA Agent | Agent × 系统优化 | 62 | Agentic RL 训练 LLM 生成超编译器性能的 GPU 内核 |
| 3 | SpatialScore | 文生图 × 奖励模型 | 44 | 字节空间感知奖励模型 + RL 微调让扩散模型理解空间关系 |
| 4 | RITranslation | 多语言评测 | 37 | 自动化翻译流水线解决多语言 LLM 评测中的翻译损耗 |
| 5 | Mode Seeking | 视频生成 | 31 | 短视频学质量、长视频学连贯,分治加速长视频生成 |
| 6 | LK Losses | 推理加速 | 17 | 反向 KL 损失直接优化投机解码接受率,提升 36% |
| 7 | CiteAudit | 学术诚信 × LLM | 15 | GPT-4o 有 15.8% 幻觉引用,构建引用验证基准 |
| 8 | 线性正交表征 | 表征学习理论 | 14 | 组合泛化的充要条件:表征必须线性且正交 |
| 9 | InfoNCE 高斯 | 对比学习理论 | 11 | InfoNCE 优化使表征空间收敛到高斯分布 |
| 10 | LCD 加速 MIGM | 图像生成加速 | 8 | 学习隐式动力学跳过冗余步骤,2.5 倍加速无损 |
| 11 | LongVideo-R1 | 视频理解 | 8 | 低成本长视频理解的智能导航 |
| 12 | Memory Caching | 序列建模 | 7 | 带增长记忆的 RNN 架构 |
| 13 | Ref-Adv | 多模态 | 7 | 多模态 LLM 在指代表达任务中的视觉推理 |
| 14 | SenCache | 推理加速 | 6 | 基于敏感度感知的扩散模型推理加速 |
| 15 | PRISM | 对齐 | 4 | 基于情境学习的多元化推理 |
| 16 | DLEBench | 图像编辑 | 3 | 小尺度物体编辑能力评测 |
| 17 | 拍照反馈 | 计算摄影 | 3 | 拍出好照片的可行动反馈系统 |
| 18 | DUET-VLM | VLM 效率 | 3 | 双阶段统一高效 Token 缩减 |
| 19 | Trie 向量化 | 推理优化 | 2 | LLM 约束解码高效实现 |
| 20 | CL4SE | 代码 | 2 | 软件工程任务的上下文学习基准 |
| 21 | 强化蒸馏 | 蒸馏 | 1 | 强化感知知识蒸馏迁移 LLM 推理能力 |
| 22 | 认知模板 | 认知科学 | 0 | 认知模型与 AI 算法的语言处理模板设计 |
今天 22 篇论文,两条主线清晰:扩散模型全面渗透语言建模——dLLM 用统一框架把散落各处的扩散语言模型组件标准化,102 票领跑说明社区对「非自回归」路线的期待正在升温;Agent 从写代码走向写内核——CUDA Agent 让 LLM Agent 用强化学习直接优化 GPU 内核,性能超 PyTorch 编译器,Agent 能力边界再次外扩。
Insight:当扩散模型开始挑战自回归在语言领域的垄断地位,当 Agent 开始替代人类系统工程师写底层优化代码,AI 研究的两个前沿——生成范式多样化和Agent 能力纵深化——正在同步加速。
dLLM: 把扩散语言模型的散装组件装进一个统一框架
扩散语言模型(DLM)正快速进化,但各家实现散落在不同代码库中,复现困难、对比不公平。dLLM 是一个统一框架,把当前 DLM 研究中反复出现的核心组件标准化——包括噪声调度、去噪网络架构、训练目标和采样策略。
框架基于 masked diffusion 范式,将离散 token 的前向过程建模为逐步 mask,逆过程则预测被 mask 的 token。dLLM 实现了模块化设计:噪声调度器、去噪器、损失函数、采样器均可独立替换。支持 MDLM、SEDD、GenMD 等主流方法的统一训练和评估。
在 OpenWebText 上训练 110M/340M 参数模型,dLLM 的复现结果与原始论文高度一致,且发现一些此前未报告的组合配置效果更好。框架开源,支持 Hugging Face Transformers 集成。
CUDA Agent: 用 Agentic RL 让 LLM 写出超越编译器的 GPU 内核
GPU 内核优化是深度学习性能的关键瓶颈,但需要极深的硬件专业知识。现有 LLM 在通用编程上表现出色,但生成的 CUDA 内核性能远不如手写或编译器优化版本。
CUDA Agent 提出了一个大规模 Agentic RL 训练流程。首先用 671 个精选 CUDA 编程题(覆盖 13 个算子类别)构建训练环境,然后让 Agent 在「编写代码 → 编译 → 执行 → 根据正确性和性能获得奖励」的循环中学习。奖励信号直接基于 GPU 实际运行速度,而非静态代码质量评分。
CUDA Agent 在 49.6% 的测试题上超越了 PyTorch 的 torch.compile 编译器,这是 LLM 首次在 CUDA 内核生成上达到编译器级别性能。Agent 还展现了自纠错能力——在多轮交互中逐步优化代码质量和执行效率。
字节 Seed: 用奖励模型让文生图真正理解空间关系
文生图模型在视觉质量上已经非常出色,但面对复杂的空间描述(如「A 在 B 左边,C 在 D 上面」)仍然经常出错,用户往往需要反复生成才能得到满意的空间布局。
来自字节跳动 Seed 团队和北大的研究者提出了一个空间感知奖励模型 SpatialScore。首先构建了 20 万+条带空间标注的 VQA 数据(SpatialSQA),让模型学会判断「生成的图片是否符合空间描述」。然后用 SpatialScore 作为奖励信号,通过 RL 微调(DPO/在线 RL)优化扩散模型的空间生成能力。
SpatialScore 在空间评估上的准确率达到 85.7%,显著优于 GPT-4o(79.5%)和 Gemini-2.0(68.8%)。经过 RL 微调的 FLUX.1-dev 在 T2I-CompBench 空间指标上提升 12.3%,且不损害整体图像质量。
RITranslation: 自动化翻译评测基准的高效流水线
多语言 LLM 评估的可靠性正受到翻译质量不一致的严重影响。现有的翻译基准常常存在语义漂移和上下文丢失,导致评估结果误导性很大。
来自 INSAIT 和 ETH Zurich 的团队提出 RITranslation(Recovered in Translation)流水线。核心设计是一个三阶段翻译流程:(1) 用 LLM 进行初始翻译;(2) 通过回译(back-translation)检测语义偏移;(3) 用专门的质量评分模型筛选并修正翻译。整个流程端到端自动化,覆盖 7 种语言 × 6 个主流基准。
翻译后的基准在语义保持率达 96.2%,远高于此前的机器翻译方案(约 82%)。在 7 种语言上的评估结果与英文原版的排名一致性 > 0.95(Kendall τ),确保了跨语言评估的公平性。
Mode Seeking + Mean Seeking: 长视频生成的分治加速策略
将视频生成从几秒扩展到几分钟面临一个关键瓶颈:短视频数据丰富且高质量,但连贯的长视频数据稀缺且局限于少数领域。
论文提出了一种分治训练范式。核心思路是将长视频生成拆分为两个阶段:(1) Mode Seeking 阶段——用短视频数据训练模型掌握高保真的局部生成能力(每个片段追求最优模式);(2) Mean Seeking 阶段——用少量长视频数据微调模型的全局连贯性(在片段间寻求一致的均值分布)。两个阶段的训练目标不同但互补。
该方法在 512 帧以上的长视频生成中保持了视觉质量和时间连贯性,同时训练效率显著提升——相比直接在长视频上训练,计算成本降低约 4 倍。生成的视频在 FVD 指标上优于直接训练的基线。