深度调研 · Reinforcement Learning

651 篇论文全景:大模型强化学习技术深度研报

从 GRPO 到 RLVR,从推理强化到 Agent RL — 8 大技术方向系统梳理

651 篇论文
8 大方向
Top 509↑
2023-2026 时间跨度

速览 · Quick View

#技术方向论文数代表作关键指标
1推理强化218 (33.5%)GSPO (317↑), rStar-Math (288↑)7B 模型超 o1
2算法创新112 (17.2%)GSPO (317↑), GDPO (228↑)GRPO 系改进
3多模态 RL114 (17.5%)Vision-Zero (140↑), Unified RM (123↑)视觉推理强化
4Agent RL99 (15.2%)GLM-4.1V-Thinking (251↑), EPO (135↑)Agent 策略优化
5对齐与安全48 (7.4%)DAA Blur (113↑), Meta-Abilities (120↑)DPO vs PPO 辩论
6奖励建模36 (5.5%)Unified RM (123↑), PRM (152↑)过程/结果奖励
7训练方法23 (3.5%)Reflect,Retry,Reward (277↑), ProRL (143↑)自我进化训练
8理论分析1 (0.2%)缩放定律
01

全景概述:从「对齐工具」到「推理引擎」

2024-2025 年,强化学习在大模型领域经历了一场根本性转变:从单纯的人类偏好对齐工具,蜕变为驱动深度推理能力的核心引擎。DeepSeek R1[1] 的成功证明了一个震撼性结论——纯 RL 训练可以激发 LLM 的深度推理能力,无需监督微调。这一发现引爆了 RL for Reasoning 的研究热潮,推理强化方向以 218 篇论文占据了全部 651 篇 RL 论文的 33.5%。

我们对这 651 篇论文进行了系统性梳理,识别出三条主线性的技术演进脉络:

从 RLHF 到 RLVR

强化学习的奖励信号从人类偏好转向可验证奖励(数学正确性、代码执行结果),大幅降低了奖励建模的成本和噪声。RLVR(Reinforcement Learning with Verifiable Rewards)正在成为新的主流范式,推动 RL 从对齐走向推理。

算法迭代加速

PPO → DPO → GRPO → GSPO → GDPO,每一代都在解决前一代的核心瓶颈:PPO 过于复杂、DPO 过于简单、GRPO 存在 Token 级噪声累积、多奖励场景需要解耦归一化。算法迭代周期从年级缩短到季度级。

小模型大能力

rStar-Math[3] 让 7B 模型在数学推理上超越 o1-preview,Absolute Zero[4] 实现零数据自我进化,VibeThinker-1.5B 用 1.5B 参数展现多样性驱动推理。RL 是小模型突破性能天花板的关键杠杆。

651 论文总量
33.5% 推理强化占比
509↑ 最高票论文
7B → o1 小模型逆袭
RL for LLM 的核心叙事已经改变:不再是「如何让模型更安全」,而是「如何让模型更聪明」。从 RLHF 到 RLVR,从对齐到推理,强化学习正在重新定义大模型能力的边界。
02

技术演进图:RL 算法的迭代加速

过去三年,大模型 RL 算法以前所未有的速度迭代。从 2023 年的 PPO/DPO 双雄对峙,到 2025 年 GRPO 系算法的百花齐放,再到 2026 年多奖励解耦和序列级优化的新范式——每一步都在解决前一代的核心瓶颈。

2023 — 奠基期
PPO(InstructGPT / ChatGPT 的核心算法)定义了 RLHF 范式,但训练复杂度极高(需要 4 个模型:Policy、Value、Reward、Reference)。DPO 将 RL 简化为分类问题,去掉了 Reward Model,但牺牲了在线探索能力。Reflexion 首次将语言反思作为 RL 信号。
2024 — GRPO 崛起
GRPO(DeepSeek-Math)[2] 去掉了 Value Model,用组内归一化替代 Critic,大幅降低训练成本。KTOSimPOOnline DPO 等变体持续改进 DPO 系列。Process RM 提出逐步骤奖励而非仅对最终结果奖励。这一年奠定了 GRPO 作为主流 RL 算法的地位。
2025 上半年 — RLVR 爆发
DeepSeek R1[1] 证明纯 RL 可激发推理,引爆 RLVR 范式。DAPO[9] 提供大规模开源 RL 系统。Absolute Zero[4] 实现零数据自我进化。rStar-Math[3] 用 MCTS + RL 让 7B 超越 o1。Kimi k1.5[10] 展示月之暗面的 RL 缩放实践。
2025 下半年 — 算法分化
GSPO[5](Qwen3 核心算法)将重要性比率从 Token 级提升到序列级,解决 MoE 训练不稳定性。ProRL[11] 延长 RL 训练扩展推理边界。EPO[14] 引入熵正则化的 Agent 策略优化。Vision-Zero[15] 将 RL 推理扩展到视觉模态。Reflect, Retry, Reward[7] 提出三阶段自我改进框架。
2026 — 多奖励与精细化
GDPO[6](NVIDIA)提出按奖励解耦归一化,解决多奖励优势塌缩。Beyond 80/20[8](Qwen/清华)发现仅 20% 高熵 Token 驱动 RL 性能。Harder Is Better[22] 提出难度感知 GRPO。算法从粗放走向精细化。
关键洞察:算法迭代的核心方向是「降低训练复杂度的同时提升优化精度」。PPO 需要 4 个模型,GRPO 减到 2 个,GSPO/GDPO 在此基础上进一步优化信号质量。未来算法将继续在更高粒度(段落/步骤/任务级)上设计奖励和优化目标。
03

算法创新:GSPO 与 GDPO — GRPO 的两大继承者

GSPO: Group Sequence Policy Optimization

317↑ 2507.18071 · Qwen Team / Alibaba · 2025
GSPO vs GRPO
Figure: GSPO 序列级重要性比率 vs GRPO Token 级噪声累积[5]

GSPO 发现了 GRPO 的一个根本性缺陷:Token 级重要性比率的噪声会在长序列中指数累积,导致训练不稳定。具体来说,GRPO 计算每个 Token 的 π(a|s)/πold(a|s) 并独立 Clipping,但当序列长度为 L 时,整体重要性比率是 L 个 Token 级比率的乘积——即使每个 Token 的偏差很小,累积效应也会导致序列级的巨大方差。

GSPO 的解决方案优雅而直接——将重要性比率从 Token 级提升到序列级,在序列级施加 Clipping。这一改动从数学上消除了噪声累积问题,特别是解决了 MoE(Mixture of Experts)模型的 RL 训练不稳定性难题。这是 Qwen3 系列模型的核心训练算法。实验证明 GSPO 在训练稳定性和最终性能上全面超越 GRPO,尤其在长序列推理任务上优势更加显著。

GDPO: Group Decomposed Policy Optimization

228↑ 2601.05242 · NVIDIA · 2026
GDPO Architecture
Figure: GDPO 解耦归一化架构 — 多奖励独立归一化[6]

GDPO 解决了 GRPO 在多奖励场景下的优势塌缩(advantage collapse)问题。在实际训练中,模型往往同时接收多个奖励信号(如数学正确性、代码执行结果、格式规范性),这些奖励的量级差异巨大。GRPO 的组内归一化会让弱信号(如格式奖励)被强信号(如正确性奖励)淹没,导致模型只优化强信号而忽略弱信号。

GDPO 提出按奖励解耦归一化:每个奖励独立计算归一化优势值,然后加权组合。这确保了每个维度的奖励信号都能有效传播。在 DeepSeek-R1-1.5B 上的实验显示:工具调用准确率 +2.7%,AIME 数学推理 +6.3%。更重要的是,GDPO 在训练稳定性上也显著优于 GRPO,尤其在混合多种任务的训练中几乎不出现梯度爆炸。

算法对比:PPO → DPO → GRPO → GSPO → GDPO

算法 是否需要 RM Token/Sequence 级 多奖励支持 训练稳定性 代表模型
PPO 需要 RM + Value Model Token 级 加权求和 中等(需精细调参) InstructGPT, ChatGPT
DPO 不需要(隐式 RM) 序列级 不支持 高(简单稳定) Llama 2 Chat
GRPO 不需要 Value Model Token 级 组内归一化 中等(长序列噪声) DeepSeek-Math/R1
GSPO 不需要 Value Model 序列级 组内归一化 (消除累积噪声) Qwen3 系列
GDPO 不需要 Value Model Token 级 解耦归一化 (多奖励均衡) NVIDIA 内部
04

推理强化:rStar-Math、Absolute Zero 与 RLVR 范式

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

288↑ 2501.04519 · Microsoft Research Asia · 2025-01
rStar-Math MCTS
Figure: rStar-Math MCTS 自我进化框架 — 代码增强 CoT + 过程偏好模型[3]

rStar-Math 证明了一个令人震撼的结论:7B 参数的小模型可以达到 OpenAI o1 级别的数学推理能力。核心方法是三重创新的结合——代码增强思维链(Code-augmented CoT)将数学推理步骤转化为可执行代码,使每一步都可以被自动验证;蒙特卡洛树搜索(MCTS)自我进化通过树搜索探索多条推理路径,自动生成高质量训练数据;过程偏好模型(PPM)基于树搜索的逐步验证提供过程级奖励信号,无需人工标注。

通过 4 轮自我进化迭代,Qwen2.5-Math-7B 在 MATH 基准上从 58.8% 提升到 90.0%,超过 OpenAI o1-preview 4.5 个百分点。关键洞察在于:传统的结果奖励(Outcome RM)只告诉模型「最终答案对不对」,而 PPM 提供了「每一步是否正确」的细粒度信号——这是小模型逆袭大模型的核心杠杆。

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

189↑ 2505.03335 · Tsinghua / BIGAI / Penn State · 2025-05
Absolute Zero
Figure: Absolute Zero 零数据自我进化流程 — 同一模型同时出题和解题[4]

Absolute Zero 将自我进化推向极致:零外部数据。传统 RL 训练依赖人工标注的数据集(如数学题库),而 Absolute Zero 让单个模型同时扮演「出题者(Proposer)」和「解题者(Solver)」,通过自我对弈(self-play)持续进化。出题者学习生成「刚好够难」的问题——太简单模型学不到东西,太难模型无法求解——这种自适应难度调节是关键创新。

在编码和数学推理基准上,Absolute Zero 均达到 SOTA,超越使用数万条人工标注数据训练的模型 1.8 个绝对百分点。这意味着 RL 训练甚至可以摆脱对外部数据的依赖,仅依靠环境反馈(代码可执行、数学可验证)实现自主进化。

更多推理强化重要工作

Beyond 80/20 Rule 188↑

Qwen Team + 清华大学联合发现:RLVR 中仅约 20% 的高熵「分叉」Token 驱动了几乎全部性能提升。仅对高熵 Token 施加 RL 梯度即可达到甚至超越全 Token 训练效果。Qwen3-32B 在 AIME'24 达 63.5,AIME'25 达 56.7。[8]

DAPO 144↑

开源大规模 RL 系统,为 RLVR 研究提供了可复现的基础设施。系统性解决了大规模 RL 训练中的工程挑战,包括梯度累积、多节点同步和内存优化。[9]

Kimi k1.5 126↑

月之暗面的 RL 缩放实践报告,展示了 RL 训练从小规模到大规模的完整路径,包括长 CoT + 短 CoT 联合训练、Multi-task 多轮 RL 等工程经验。[10]

ProRL 143↑

提出延长 RL 训练以扩展推理边界的方法。发现当标准 RL 训练收敛后,通过调整学习率调度和奖励结构可以继续获得显著收益,将推理能力推向更远的边界。[11]

05

训练方法:Reflect, Retry, Reward 与 Beyond 80/20

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

277↑ 2505.24726 · 2025

这篇论文提出了一个优雅的三阶段 RL 框架,将 LLM 的自我改进过程分解为三个互补的步骤:反思(Reflect)——模型在得到错误答案后,生成对自身推理过程的语言分析,识别出具体的错误原因;重试(Retry)——基于反思结果,模型重新尝试解题,生成修正后的推理链;奖励(Reward)——对修正后的结果进行验证,正确则给予正奖励强化「反思 + 修正」的行为模式。

这一框架的核心洞察在于:仅强化最终答案的正确性是不够的——模型需要学会「从错误中学习」的元能力。传统 RL 只看最终结果对不对,而 Reflect-Retry-Reward 让模型先学会分析错误,再学会修正,最后通过奖励信号巩固整个自我改进回路。实验表明,经过该框架训练的模型在首次尝试失败后的修正成功率显著提升,且这种自我改进能力可以泛化到训练分布之外的新任务。

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive RLVR

188↑ 2506.01939 · Qwen / Alibaba + Tsinghua · 2025
Beyond 80/20
Figure: 高熵少数 Token 驱动 RLVR 的核心发现 — 仅 20% Token 贡献了几乎全部性能提升[8]

这篇论文揭示了 RLVR 训练的一个深层机制:并非所有 Token 对 RL 训练的贡献是均等的。通过对 RLVR 训练过程中每个 Token 的熵变化和梯度贡献进行精细分析,研究者发现仅约 20% 的高熵「分叉」Token(即模型在这些位置有多个高概率候选词的 Token)驱动了几乎全部的性能提升,其余 80% 的 Token 贡献微乎其微。

基于这一发现,论文提出了一种高效的选择性 RL 方法:仅对高熵 Token 施加 RL 梯度,跳过低熵(模型已经非常确定的)Token。这不仅大幅降低了计算成本,还避免了对已确定 Token 的无效梯度干扰。Qwen3-32B 在该方法下达到了 AIME'24 63.5、AIME'25 56.7 的成绩,是 600B 以下基座模型中的 RLVR SOTA。

投资视角:这一发现意味着 RL 训练的计算效率可以提升数倍——仅需处理 20% 的关键 Token 即可达到全量训练效果。对于算力受限的团队而言,这是一个「用更少的 GPU 做更强的模型」的切实路径。

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录