← Back to Videos
YC Decoded 2025.02.05

DeepSeek 背后的工程突破

YC Decoded 深度解析:DeepSeek R1 和 V3 为何震动市场?FP8 训练、混合专家架构、多头潜在注意力、纯强化学习推理 —— 逐一拆解中国 AI 实验室的关键技术创新

Format
YC Decoded
Topic
DeepSeek R1 / V3
Duration
13:05
Channel
Y Combinator

DeepSeek 真正证明的是:前沿 AI 仍然有新玩家的空间。重建技术栈、优化 GPU 工作负载、改进推理层工具 —— 智能的成本在持续下降,这对 AI 应用创业者来说是最好的消息。

📑 内容章节

00:00DeepSeek R1 为何引爆舆论与股市
01:08V3 vs R1:两个模型的区别与关系
02:40FP8 训练:用更低精度换取极致效率
03:22GPU 利用率困境与 NVIDIA 的系统优势
04:36混合专家架构(MoE):671B 参数只激活 37B
05:21多头潜在注意力(MLA):KV 缓存压缩 93.3%
06:17多 Token 预测(MTP):更快学习与推理加速
07:05R1 推理模型:纯强化学习的突破
09:05GRPO 与「顿悟时刻」:推理能力的涌现
10:44为何如此轰动:可及性、成本误解与行业影响

💡 核心观点

1

V3 是基座,R1 是推理层

DeepSeek V3 是通用基座模型,对标 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5;R1 是在 V3 基础上通过强化学习训练出的推理模型,对标 OpenAI o1。许多关键算法创新早在 2024 年 5 月的 V2 论文和 2024 年 2 月的 DeepSeek-Math 论文中就已发表。

2

FP8 训练 + 极致 GPU 利用率

V3 原生使用 8 位浮点格式训练,相比通常的 16 位或 32 位大幅节省显存。关键创新是 FP8 累加修正:周期性地将计算合并回 FP32 累加器,防止小数值误差累积。受美国 GPU 出口管制限制,DeepSeek 必须从现有硬件中榨取每一分算力。

3

MoE + MLA + MTP 三重架构创新

混合专家架构使 671B 参数模型每次只激活 37B(比 Llama 3 少 11 倍计算);多头潜在注意力将 KV 缓存压缩 93.3%,吞吐量提升 5.76 倍;多 Token 预测让模型同时预测多个未来 Token,既加密训练信号又可用于推测解码加速推理。

4

纯 RL 推理:不教模型「如何思考」

R1 的训练过程极其简洁:准备一批有可验证答案的数学和编码问题,不提供任何思考示例,只用简单规则评估最终输出的准确性和格式。通过 GRPO 算法更新模型,经过数千步 RL 训练后,推理能力自然涌现,模型甚至学会了自我纠错的「顿悟时刻」。