YC Decoded 深度解析三大开源大模型 GPT OSS、DeepSeek V3 和 Qwen 3 的架构差异:从 Mixture of Experts 到注意力机制,从上下文扩展策略到后训练流程,全面拆解开源 LLM 的技术路线之争
尽管 GPT OSS、DeepSeek V3 和 Qwen 3 在基准测试上表现相近,且使用了许多相同的基础工具(注意力机制、激活函数、位置编码等),但它们通过截然不同的技术路径实现了相似的结果 -- 这说明开源 LLM 竞争的真正护城河在于数据工程,而非架构本身。
三大模型都采用了 Mixture of Experts(MoE)架构。GPT OSS 120B 参数仅激活 Top-4 专家,DeepSeek V3 671B 参数激活 37B,Qwen 3 则同时提供 Dense 和 MoE 变体。MoE 让模型在保持大参数量带来的知识容量的同时,大幅降低推理成本。
GPT OSS 和 Qwen 3 都使用 Grouped Query Attention(GQA)来减少 KV 缓存内存占用。而 DeepSeek V3 另辟蹊径,采用 Multi-head Latent Attention(MLA),将 Key-Value 压缩到低维潜空间再缓存,在超长上下文场景中实现了更优的内存效率和建模性能。
GPT OSS 从预训练阶段就原生应用 YaRN,天生支持 131K token 上下文。DeepSeek 采用分阶段微调策略,先扩展到 32K 再训练到 128K。Qwen 3 训练时仅扩展到 32K,然后在推理时通过 YaRN 动态缩放到 128K,省去了额外的长上下文重新训练。
各实验室对训练数据集的细节讳莫如深。论文背后隐藏着大量的数据工程工作 -- 合成数据生成、多语言语料筛选、推理数据构造等。这些难以复制的数据工程能力,才是这些公司敢于开源模型权重的真正原因。