YC Decoded 2025.08.29

OpenAI vs DeepSeek vs Qwen：开源 LLM 架构对比

YC Decoded 深度解析三大开源大模型 GPT OSS、DeepSeek V3 和 Qwen 3 的架构差异：从 Mixture of Experts 到注意力机制，从上下文扩展策略到后训练流程，全面拆解开源 LLM 的技术路线之争

Speaker

YC Decoded

Duration

12:31

Date

2025.08.29

Mixture of Experts 成为开源主流

三大模型都采用了 Mixture of Experts（MoE）架构。GPT OSS 120B 参数仅激活 Top-4 专家，DeepSeek V3 671B 参数激活 37B，Qwen 3 则同时提供 Dense 和 MoE 变体。MoE 让模型在保持大参数量带来的知识容量的同时，大幅降低推理成本。

注意力机制的分歧：GQA vs MLA

GPT OSS 和 Qwen 3 都使用 Grouped Query Attention（GQA）来减少 KV 缓存内存占用。而 DeepSeek V3 另辟蹊径，采用 Multi-head Latent Attention（MLA），将 Key-Value 压缩到低维潜空间再缓存，在超长上下文场景中实现了更优的内存效率和建模性能。

上下文扩展的三条路径

GPT OSS 从预训练阶段就原生应用 YaRN，天生支持 131K token 上下文。DeepSeek 采用分阶段微调策略，先扩展到 32K 再训练到 128K。Qwen 3 训练时仅扩展到 32K，然后在推理时通过 YaRN 动态缩放到 128K，省去了额外的长上下文重新训练。

数据工程才是真正的护城河

各实验室对训练数据集的细节讳莫如深。论文背后隐藏着大量的数据工程工作 -- 合成数据生成、多语言语料筛选、推理数据构造等。这些难以复制的数据工程能力，才是这些公司敢于开源模型权重的真正原因。

OpenAI vs DeepSeek vs Qwen：开源 LLM 架构对比

📺 关于本期节目

📑 内容章节

💡 核心观点

Mixture of Experts 成为开源主流

注意力机制的分歧：GQA vs MLA

上下文扩展的三条路径

数据工程才是真正的护城河

OpenAI vs DeepSeek vs Qwen：开源 LLM 架构对比

📺 关于本期节目

📑 内容章节

💡 核心观点

Mixture of Experts 成为开源主流

注意力机制的分歧：GQA vs MLA

上下文扩展的三条路径

数据工程才是真正的护城河

登录后查看完整内容