YC Decoded 深度解析:DeepSeek R1 和 V3 为何震动市场?FP8 训练、混合专家架构、多头潜在注意力、纯强化学习推理 —— 逐一拆解中国 AI 实验室的关键技术创新
DeepSeek 真正证明的是:前沿 AI 仍然有新玩家的空间。重建技术栈、优化 GPU 工作负载、改进推理层工具 —— 智能的成本在持续下降,这对 AI 应用创业者来说是最好的消息。
DeepSeek V3 是通用基座模型,对标 GPT-4o、Claude 3.5 Sonnet 和 Gemini 1.5;R1 是在 V3 基础上通过强化学习训练出的推理模型,对标 OpenAI o1。许多关键算法创新早在 2024 年 5 月的 V2 论文和 2024 年 2 月的 DeepSeek-Math 论文中就已发表。
V3 原生使用 8 位浮点格式训练,相比通常的 16 位或 32 位大幅节省显存。关键创新是 FP8 累加修正:周期性地将计算合并回 FP32 累加器,防止小数值误差累积。受美国 GPU 出口管制限制,DeepSeek 必须从现有硬件中榨取每一分算力。
混合专家架构使 671B 参数模型每次只激活 37B(比 Llama 3 少 11 倍计算);多头潜在注意力将 KV 缓存压缩 93.3%,吞吐量提升 5.76 倍;多 Token 预测让模型同时预测多个未来 Token,既加密训练信号又可用于推测解码加速推理。
R1 的训练过程极其简洁:准备一批有可验证答案的数学和编码问题,不提供任何思考示例,只用简单规则评估最终输出的准确性和格式。通过 GRPO 算法更新模型,经过数千步 RL 训练后,推理能力自然涌现,模型甚至学会了自我纠错的「顿悟时刻」。