651 篇论文全景：大模型强化学习技术深度研报

速览 · Quick View

#	技术方向	论文数	代表作	关键指标
1	推理强化	218 (33.5%)	GSPO (317↑), rStar-Math (288↑)	7B 模型超 o1
2	算法创新	112 (17.2%)	GSPO (317↑), GDPO (228↑)	GRPO 系改进
3	多模态 RL	114 (17.5%)	Vision-Zero (140↑), Unified RM (123↑)	视觉推理强化
4	Agent RL	99 (15.2%)	GLM-4.1V-Thinking (251↑), EPO (135↑)	Agent 策略优化
5	对齐与安全	48 (7.4%)	DAA Blur (113↑), Meta-Abilities (120↑)	DPO vs PPO 辩论
6	奖励建模	36 (5.5%)	Unified RM (123↑), PRM (152↑)	过程/结果奖励
7	训练方法	23 (3.5%)	Reflect,Retry,Reward (277↑), ProRL (143↑)	自我进化训练
8	理论分析	1 (0.2%)	—	缩放定律

全景概述：从「对齐工具」到「推理引擎」

2024-2025 年，强化学习在大模型领域经历了一场根本性转变：从单纯的人类偏好对齐工具，蜕变为驱动深度推理能力的核心引擎。DeepSeek R1^[1] 的成功证明了一个震撼性结论——纯 RL 训练可以激发 LLM 的深度推理能力，无需监督微调。这一发现引爆了 RL for Reasoning 的研究热潮，推理强化方向以 218 篇论文占据了全部 651 篇 RL 论文的 33.5%。

我们对这 651 篇论文进行了系统性梳理，识别出三条主线性的技术演进脉络：

从 RLHF 到 RLVR

强化学习的奖励信号从人类偏好转向可验证奖励（数学正确性、代码执行结果），大幅降低了奖励建模的成本和噪声。RLVR（Reinforcement Learning with Verifiable Rewards）正在成为新的主流范式，推动 RL 从对齐走向推理。

算法迭代加速

PPO → DPO → GRPO → GSPO → GDPO，每一代都在解决前一代的核心瓶颈：PPO 过于复杂、DPO 过于简单、GRPO 存在 Token 级噪声累积、多奖励场景需要解耦归一化。算法迭代周期从年级缩短到季度级。

小模型大能力

rStar-Math^[3] 让 7B 模型在数学推理上超越 o1-preview，Absolute Zero^[4] 实现零数据自我进化，VibeThinker-1.5B 用 1.5B 参数展现多样性驱动推理。RL 是小模型突破性能天花板的关键杠杆。

651 论文总量

33.5% 推理强化占比

509↑ 最高票论文

7B → o1 小模型逆袭

RL for LLM 的核心叙事已经改变：不再是「如何让模型更安全」，而是「如何让模型更聪明」。从 RLHF 到 RLVR，从对齐到推理，强化学习正在重新定义大模型能力的边界。

技术演进图：RL 算法的迭代加速

过去三年，大模型 RL 算法以前所未有的速度迭代。从 2023 年的 PPO/DPO 双雄对峙，到 2025 年 GRPO 系算法的百花齐放，再到 2026 年多奖励解耦和序列级优化的新范式——每一步都在解决前一代的核心瓶颈。

2023 — 奠基期

PPO（InstructGPT / ChatGPT 的核心算法）定义了 RLHF 范式，但训练复杂度极高（需要 4 个模型：Policy、Value、Reward、Reference）。DPO 将 RL 简化为分类问题，去掉了 Reward Model，但牺牲了在线探索能力。Reflexion 首次将语言反思作为 RL 信号。

2024 — GRPO 崛起

GRPO（DeepSeek-Math）^[2] 去掉了 Value Model，用组内归一化替代 Critic，大幅降低训练成本。KTO、SimPO、Online DPO 等变体持续改进 DPO 系列。Process RM 提出逐步骤奖励而非仅对最终结果奖励。这一年奠定了 GRPO 作为主流 RL 算法的地位。

2025 上半年 — RLVR 爆发

DeepSeek R1^[1] 证明纯 RL 可激发推理，引爆 RLVR 范式。DAPO^[9] 提供大规模开源 RL 系统。Absolute Zero^[4] 实现零数据自我进化。rStar-Math^[3] 用 MCTS + RL 让 7B 超越 o1。Kimi k1.5^[10] 展示月之暗面的 RL 缩放实践。

2025 下半年 — 算法分化

GSPO^[5]（Qwen3 核心算法）将重要性比率从 Token 级提升到序列级，解决 MoE 训练不稳定性。ProRL^[11] 延长 RL 训练扩展推理边界。EPO^[14] 引入熵正则化的 Agent 策略优化。Vision-Zero^[15] 将 RL 推理扩展到视觉模态。Reflect, Retry, Reward^[7] 提出三阶段自我改进框架。

2026 — 多奖励与精细化

GDPO^[6]（NVIDIA）提出按奖励解耦归一化，解决多奖励优势塌缩。Beyond 80/20^[8]（Qwen/清华）发现仅 20% 高熵 Token 驱动 RL 性能。Harder Is Better^[22] 提出难度感知 GRPO。算法从粗放走向精细化。

关键洞察：算法迭代的核心方向是「降低训练复杂度的同时提升优化精度」。PPO 需要 4 个模型，GRPO 减到 2 个，GSPO/GDPO 在此基础上进一步优化信号质量。未来算法将继续在更高粒度（段落/步骤/任务级）上设计奖励和优化目标。

算法创新：GSPO 与 GDPO — GRPO 的两大继承者

GSPO: Group Sequence Policy Optimization

317↑ 2507.18071 · Qwen Team / Alibaba · 2025

GSPO vs GRPO — Figure: GSPO 序列级重要性比率 vs GRPO Token 级噪声累积^[5]

GSPO 发现了 GRPO 的一个根本性缺陷：Token 级重要性比率的噪声会在长序列中指数累积，导致训练不稳定。具体来说，GRPO 计算每个 Token 的 π(a|s)/π_old(a|s) 并独立 Clipping，但当序列长度为 L 时，整体重要性比率是 L 个 Token 级比率的乘积——即使每个 Token 的偏差很小，累积效应也会导致序列级的巨大方差。

GSPO 的解决方案优雅而直接——将重要性比率从 Token 级提升到序列级，在序列级施加 Clipping。这一改动从数学上消除了噪声累积问题，特别是解决了 MoE（Mixture of Experts）模型的 RL 训练不稳定性难题。这是 Qwen3 系列模型的核心训练算法。实验证明 GSPO 在训练稳定性和最终性能上全面超越 GRPO，尤其在长序列推理任务上优势更加显著。

HF: huggingface.co/papers/2507.18071 | PaperScope: paperscope.ai/hf/2507.18071

GDPO: Group Decomposed Policy Optimization

228↑ 2601.05242 · NVIDIA · 2026

GDPO Architecture — Figure: GDPO 解耦归一化架构 — 多奖励独立归一化^[6]

GDPO 解决了 GRPO 在多奖励场景下的优势塌缩（advantage collapse）问题。在实际训练中，模型往往同时接收多个奖励信号（如数学正确性、代码执行结果、格式规范性），这些奖励的量级差异巨大。GRPO 的组内归一化会让弱信号（如格式奖励）被强信号（如正确性奖励）淹没，导致模型只优化强信号而忽略弱信号。

GDPO 提出按奖励解耦归一化：每个奖励独立计算归一化优势值，然后加权组合。这确保了每个维度的奖励信号都能有效传播。在 DeepSeek-R1-1.5B 上的实验显示：工具调用准确率 +2.7%，AIME 数学推理 +6.3%。更重要的是，GDPO 在训练稳定性上也显著优于 GRPO，尤其在混合多种任务的训练中几乎不出现梯度爆炸。

HF: huggingface.co/papers/2601.05242 | PaperScope: paperscope.ai/hf/2601.05242

算法对比：PPO → DPO → GRPO → GSPO → GDPO

算法	是否需要 RM	Token/Sequence 级	多奖励支持	训练稳定性	代表模型
PPO	需要 RM + Value Model	Token 级	加权求和	中等（需精细调参）	InstructGPT, ChatGPT
DPO	不需要（隐式 RM）	序列级	不支持	高（简单稳定）	Llama 2 Chat
GRPO	不需要 Value Model	Token 级	组内归一化	中等（长序列噪声）	DeepSeek-Math/R1
GSPO	不需要 Value Model	序列级	组内归一化	高（消除累积噪声）	Qwen3 系列
GDPO	不需要 Value Model	Token 级	解耦归一化	高（多奖励均衡）	NVIDIA 内部

推理强化：rStar-Math、Absolute Zero 与 RLVR 范式

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

288↑ 2501.04519 · Microsoft Research Asia · 2025-01

Figure: rStar-Math MCTS 自我进化框架 — 代码增强 CoT + 过程偏好模型^[3]

rStar-Math 证明了一个令人震撼的结论：7B 参数的小模型可以达到 OpenAI o1 级别的数学推理能力。核心方法是三重创新的结合——代码增强思维链（Code-augmented CoT）将数学推理步骤转化为可执行代码，使每一步都可以被自动验证；蒙特卡洛树搜索（MCTS）自我进化通过树搜索探索多条推理路径，自动生成高质量训练数据；过程偏好模型（PPM）基于树搜索的逐步验证提供过程级奖励信号，无需人工标注。

通过 4 轮自我进化迭代，Qwen2.5-Math-7B 在 MATH 基准上从 58.8% 提升到 90.0%，超过 OpenAI o1-preview 4.5 个百分点。关键洞察在于：传统的结果奖励（Outcome RM）只告诉模型「最终答案对不对」，而 PPM 提供了「每一步是否正确」的细粒度信号——这是小模型逆袭大模型的核心杠杆。

HF: huggingface.co/papers/2501.04519 | PaperScope: paperscope.ai/hf/2501.04519

Absolute Zero: Reinforced Self-play Reasoning with Zero Data

189↑ 2505.03335 · Tsinghua / BIGAI / Penn State · 2025-05

Absolute Zero 将自我进化推向极致：零外部数据。传统 RL 训练依赖人工标注的数据集（如数学题库），而 Absolute Zero 让单个模型同时扮演「出题者（Proposer）」和「解题者（Solver）」，通过自我对弈（self-play）持续进化。出题者学习生成「刚好够难」的问题——太简单模型学不到东西，太难模型无法求解——这种自适应难度调节是关键创新。

在编码和数学推理基准上，Absolute Zero 均达到 SOTA，超越使用数万条人工标注数据训练的模型 1.8 个绝对百分点。这意味着 RL 训练甚至可以摆脱对外部数据的依赖，仅依靠环境反馈（代码可执行、数学可验证）实现自主进化。

HF: huggingface.co/papers/2505.03335 | PaperScope: paperscope.ai/hf/2505.03335

训练方法：Reflect, Retry, Reward 与 Beyond 80/20

Reflect, Retry, Reward: Self-Improving LLMs via Reinforcement Learning

277↑ 2505.24726 · 2025

这篇论文提出了一个优雅的三阶段 RL 框架，将 LLM 的自我改进过程分解为三个互补的步骤：反思（Reflect）——模型在得到错误答案后，生成对自身推理过程的语言分析，识别出具体的错误原因；重试（Retry）——基于反思结果，模型重新尝试解题，生成修正后的推理链；奖励（Reward）——对修正后的结果进行验证，正确则给予正奖励强化「反思 + 修正」的行为模式。

这一框架的核心洞察在于：仅强化最终答案的正确性是不够的——模型需要学会「从错误中学习」的元能力。传统 RL 只看最终结果对不对，而 Reflect-Retry-Reward 让模型先学会分析错误，再学会修正，最后通过奖励信号巩固整个自我改进回路。实验表明，经过该框架训练的模型在首次尝试失败后的修正成功率显著提升，且这种自我改进能力可以泛化到训练分布之外的新任务。

HF: huggingface.co/papers/2505.24726 | PaperScope: paperscope.ai/hf/2505.24726

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive RLVR

188↑ 2506.01939 · Qwen / Alibaba + Tsinghua · 2025

Beyond 80/20 — Figure: 高熵少数 Token 驱动 RLVR 的核心发现 — 仅 20% Token 贡献了几乎全部性能提升^[8]

这篇论文揭示了 RLVR 训练的一个深层机制：并非所有 Token 对 RL 训练的贡献是均等的。通过对 RLVR 训练过程中每个 Token 的熵变化和梯度贡献进行精细分析，研究者发现仅约 20% 的高熵「分叉」Token（即模型在这些位置有多个高概率候选词的 Token）驱动了几乎全部的性能提升，其余 80% 的 Token 贡献微乎其微。

基于这一发现，论文提出了一种高效的选择性 RL 方法：仅对高熵 Token 施加 RL 梯度，跳过低熵（模型已经非常确定的）Token。这不仅大幅降低了计算成本，还避免了对已确定 Token 的无效梯度干扰。Qwen3-32B 在该方法下达到了 AIME'24 63.5、AIME'25 56.7 的成绩，是 600B 以下基座模型中的 RLVR SOTA。

投资视角：这一发现意味着 RL 训练的计算效率可以提升数倍——仅需处理 20% 的关键 Token 即可达到全量训练效果。对于算力受限的团队而言，这是一个「用更少的 GPU 做更强的模型」的切实路径。

HF: huggingface.co/papers/2506.01939 | PaperScope: paperscope.ai/hf/2506.01939

登录后阅读完整报告

包含详细分析、数据图表、竞品对比、参考文献等

Google 登录

或