YC Decoded 2024.10.25

为什么 OpenAI 的 o1 意义重大

YC Decoded 深度解析 OpenAI 全新推理模型 o1：从 Chain of Thought 到强化学习训练，揭秘 o1 如何通过「思考」来解决复杂问题，以及这对 AI 未来意味着什么

Speaker

YC Decoded

Duration

7:06

Date

2024.10.25

Category

YC Decoded

o1 标志着 AI 从「记忆答案」到「记忆推理过程」的根本性转变。通过强化学习训练出自主的 Chain of Thought 能力，模型不再只是预测下一个 token，而是真正地逐步推理、自我纠错，解决复杂问题。

💬 关于本期

YC Decoded 用简洁清晰的方式解析了 OpenAI 的 o1 模型为何是一件大事。o1（此前代号 Q* 和 Strawberry）代表了一种全新类别的 LLM：它不再只是预测最可能的 token，而是通过内建的推理链（Chain of Thought）来拆解复杂问题，逐步思考并自我修正。更关键的是，OpenAI 通过大规模强化学习让 o1 自行生成合成推理链，使其在数学、编程和科学基准测试上达到了博士生水平。Sam Altman 将当前的 o1 比作 GPT-2 阶段，暗示未来几年内将实现 GPT-4 级别的飞跃。

📑 内容章节

💡 核心观点

全新类别的 LLM

o1 preview 和 o1 mini 代表了一种全新类别的模型，专门为推理（Reasoning）而设计。此前代号为 Q* 和 Strawberry，它们在数学、编程和科学领域表现卓越，在物理、化学和生物等基准测试中达到了博士生水平。

内建的 Chain of Thought

不同于手动提示「逐步思考」，o1 通过大规模强化学习训练，能够自主生成合成推理链。模型会拆解问题、识别自身错误、尝试不同策略并持续优化方法，真正模拟人类的推理过程。

推理时间 Scaling Law

o1 不仅通过更多训练持续改进，在实际使用时也遵循一个关键规律：给它更多时间思考（投入更多推理算力），答案就越准确。这意味着模型的能力可以通过推理时间的增加而持续提升。

从记忆答案到记忆推理

o1 标志着一个根本转变：模型不再只是记忆训练数据中的答案，而是学会了记忆推理过程本身。它能为复杂问题生成自己的中间步骤序列，虽然仍会偶尔产生幻觉，但代表了一种质的飞跃。