YC Decoded 2025.02.05

DeepSeek 背后的工程突破

YC Decoded 深度解析：DeepSeek R1 和 V3 为何震动市场？FP8 训练、混合专家架构、多头潜在注意力、纯强化学习推理 —— 逐一拆解中国 AI 实验室的关键技术创新

Format

YC Decoded

Topic

DeepSeek R1 / V3

Duration

13:05

Channel

Y Combinator

📑 内容章节

00:00DeepSeek R1 为何引爆舆论与股市

01:08V3 vs R1：两个模型的区别与关系

02:40FP8 训练：用更低精度换取极致效率

03:22GPU 利用率困境与 NVIDIA 的系统优势

04:36混合专家架构（MoE）：671B 参数只激活 37B

05:21多头潜在注意力（MLA）：KV 缓存压缩 93.3%

06:17多 Token 预测（MTP）：更快学习与推理加速

07:05R1 推理模型：纯强化学习的突破

09:05GRPO 与「顿悟时刻」：推理能力的涌现

10:44为何如此轰动：可及性、成本误解与行业影响

💡 核心观点

V3 是基座，R1 是推理层

DeepSeek V3 是通用基座模型，对标 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5；R1 是在 V3 基础上通过强化学习训练出的推理模型，对标 OpenAI o1。许多关键算法创新早在 2024 年 5 月的 V2 论文和 2024 年 2 月的 DeepSeek-Math 论文中就已发表。

FP8 训练 + 极致 GPU 利用率

V3 原生使用 8 位浮点格式训练，相比通常的 16 位或 32 位大幅节省显存。关键创新是 FP8 累加修正：周期性地将计算合并回 FP32 累加器，防止小数值误差累积。受美国 GPU 出口管制限制，DeepSeek 必须从现有硬件中榨取每一分算力。

MoE + MLA + MTP 三重架构创新

混合专家架构使 671B 参数模型每次只激活 37B（比 Llama 3 少 11 倍计算）；多头潜在注意力将 KV 缓存压缩 93.3%，吞吐量提升 5.76 倍；多 Token 预测让模型同时预测多个未来 Token，既加密训练信号又可用于推测解码加速推理。

纯 RL 推理：不教模型「如何思考」

R1 的训练过程极其简洁：准备一批有可验证答案的数学和编码问题，不提供任何思考示例，只用简单规则评估最终输出的准确性和格式。通过 GRPO 算法更新模型，经过数千步 RL 训练后，推理能力自然涌现，模型甚至学会了自我纠错的「顿悟时刻」。