Andrej Karpathy 深度解析为什么强化学习很糟糕(但其他所有方法更糟)、为什么 AGI 将融入过去 250 年 2% 的 GDP 增长曲线、自动驾驶为何耗时如此之久,以及他对教育未来的愿景 -- Eureka "星际学院"。
Karpathy 的核心洞见:我们并非在构建动物 -- 我们在召唤幽灵。LLM 通过模仿互联网上的人类数据而诞生,形成了一种全新的"灵体"智能,与进化产生的动物智能截然不同。预训练是一种"劣质版进化",而真正的挑战在于将认知核心从海量记忆中剥离出来,让 AI 学会像人类一样"思考"而非仅仅"记忆"。
从 AGI 时间线到教育的未来:Karpathy 横跨深度学习、强化学习、自动驾驶和教育的完整思想图谱。
从 Karpathy 近 15 年的 AI 研究与工程经验中提炼出的六大核心观点。
LLM 通过模仿互联网上的人类文本而诞生,形成了一种"灵体"般的智能实体。我们并非在运行进化过程来构建动物,而是在通过模仿人类数据来召唤幽灵。预训练是一种"劣质版进化"(crappy evolution) -- 是我们现有技术条件下能做到的最佳起点。
RL 的核心问题是"通过吸管吸取监督信号" -- 模型做了一分钟的推理,最终只得到一个"对/错"的信号,然后把这个信号广播到整个轨迹。每一步都被等权地上调或下调,哪怕中间走了很多弯路。人类绝不会这样学习。我们需要 3-5 个新的算法范式突破。
Karpathy 认为 AGI 不会在 GDP 曲线中留下任何痕迹 -- 就像 iPhone、互联网、计算机一样,一切都会融入持续了 250 年的 2% 指数增长。"递归自我改进"早已发生了几十年,AI 不过是延续这一趋势。他预测不会有离散跳跃。
未来的关键在于将 LLM 的"认知核心"从海量记忆中剥离。一个十亿参数的模型或许就足以承载智能的核心算法,而所有事实性知识都可以通过外部查找获取。当前模型的记忆力太强反而是缺陷 -- 它们应该像人类一样学会"忘记"和"泛化"。
从自动驾驶的五年经验中,Karpathy 总结出"九的行军"规律:从 demo 到产品,每增加一个 9(90% -> 99% -> 99.9%)都需要同等的工作量。AI 编程面临同样的问题 -- 安全关键代码的容错要求不亚于自动驾驶,这解释了为什么他的时间线比多数人更长。
Karpathy 选择投身教育而非加入 AI 实验室,因为他认为"实验室的工作有一定确定性",而人类在 AI 时代的命运更需要关注。他正在打造 Eureka -- 一个以"每秒顿悟次数"为目标的教育平台。在 AGI 之后,教育将像健身一样,成为一种自我提升的"运动"。