← Back to Videos
YC Decoded 2025.08.29

OpenAI vs DeepSeek vs Qwen:开源 LLM 架构对比

YC Decoded 深度解析三大开源大模型 GPT OSS、DeepSeek V3 和 Qwen 3 的架构差异:从 Mixture of Experts 到注意力机制,从上下文扩展策略到后训练流程,全面拆解开源 LLM 的技术路线之争

Speaker
YC Decoded
Duration
12:31
Date
2025.08.29
Category
YC Decoded

尽管 GPT OSS、DeepSeek V3 和 Qwen 3 在基准测试上表现相近,且使用了许多相同的基础工具(注意力机制、激活函数、位置编码等),但它们通过截然不同的技术路径实现了相似的结果 -- 这说明开源 LLM 竞争的真正护城河在于数据工程,而非架构本身。

📺 关于本期节目

YC
YC Decoded
Y Combinator 技术解读系列
YC Decoded 是 Y Combinator 官方频道的技术深度解析栏目,专注于拆解前沿 AI 技术的底层原理,用清晰的语言为开发者和创业者讲解复杂的技术论文
📖
本期主题
开源 LLM 架构横向对比
本期对比了 OpenAI GPT OSS、DeepSeek V3/V3.1 和 Alibaba Qwen 3 三大开源模型的架构设计、训练策略和上下文扩展方法,揭示各实验室的不同技术选择背后的权衡

📑 内容章节

00:00开场:GPT OSS 发布背景与开源 LLM 格局
00:23GPT OSS 架构详解:MoE、GQA、YaRN 与量化部署
02:52Qwen 3 全面解析:Dense + MoE 家族与三阶段预训练
06:46DeepSeek V3 与 V3.1:MLA 注意力机制与 8-bit 训练
08:40三大模型横向对比:规模、上下文扩展与技术路线差异
10:37思考与总结:经验主义、数据工程护城河与开源未来

💡 核心观点

1

Mixture of Experts 成为开源主流

三大模型都采用了 Mixture of Experts(MoE)架构。GPT OSS 120B 参数仅激活 Top-4 专家,DeepSeek V3 671B 参数激活 37B,Qwen 3 则同时提供 Dense 和 MoE 变体。MoE 让模型在保持大参数量带来的知识容量的同时,大幅降低推理成本。

2

注意力机制的分歧:GQA vs MLA

GPT OSS 和 Qwen 3 都使用 Grouped Query Attention(GQA)来减少 KV 缓存内存占用。而 DeepSeek V3 另辟蹊径,采用 Multi-head Latent Attention(MLA),将 Key-Value 压缩到低维潜空间再缓存,在超长上下文场景中实现了更优的内存效率和建模性能。

3

上下文扩展的三条路径

GPT OSS 从预训练阶段就原生应用 YaRN,天生支持 131K token 上下文。DeepSeek 采用分阶段微调策略,先扩展到 32K 再训练到 128K。Qwen 3 训练时仅扩展到 32K,然后在推理时通过 YaRN 动态缩放到 128K,省去了额外的长上下文重新训练。

4

数据工程才是真正的护城河

各实验室对训练数据集的细节讳莫如深。论文背后隐藏着大量的数据工程工作 -- 合成数据生成、多语言语料筛选、推理数据构造等。这些难以复制的数据工程能力,才是这些公司敢于开源模型权重的真正原因。