Y Combinator 2025.07.01

Fei-Fei Li：空间智能是 AI 的下一个前沿

斯坦福教授、「AI 教母」李飞飞在 YC 活动中深度分享：从 ImageNet 的诞生到空间智能的宏大愿景，从创办 World Labs 的初心到对 AGI 定义的思考，以及她对创业者和研究者的真挚建议

Guest

Fei-Fei Li

Interviewer

Diana Hu

Duration

44:22

Channel

Y Combinator

👤 嘉宾介绍

Fei-Fei Li (李飞飞)

Stanford 教授 / World Labs 创始人兼 CEO

被誉为「AI 教母」，ImageNet 项目创始人，斯坦福以人为本 AI 研究院 (HAI) 联合创始人。2024 年创办 World Labs，致力于解决空间智能这一 AI 领域的根本性问题

Diana Hu

Y Combinator Partner

YC 合伙人，主持本场炉边对话，引导 Fei-Fei 分享从 ImageNet 到 World Labs 的完整技术与创业历程

📑 内容章节

00:00开场：追逐近乎疯狂的难题

01:02ImageNet 的诞生：数据驱动范式的开端

05:01AlexNet 时刻：深度学习、GPU 与数据的三位一体

08:53从物体识别到场景描述：实现毕生梦想

12:45空间智能：为什么 AGI 离不开 3D 世界理解

18:18为什么视觉比语言更难：1D vs 3D 的本质差异

23:48World Labs：3D 世界模型的应用前景

25:40从移民少女到创业者：零到一的人生经历

29:26培养传奇学生的秘诀：智识上的无畏

32:10Q&A：博士生该研究什么方向

34:40Q&A：AGI 是统一模型还是多智能体系统

37:50Q&A：什么样的人适合读研究生

39:10Q&A：开源与闭源的生态平衡

42:40Q&A：作为少数群体的心态与勇气

💡 核心观点

ImageNet 引爆了深度学习革命

2007 年，Fei-Fei 和学生决定下载 10 亿张互联网图片，创建世界上最大的视觉分类数据集。当时 AI 几乎无人问津，但她坚信数据驱动方法将带来范式转移。2012 年 AlexNet 在 ImageNet 挑战赛上的突破，是数据、GPU 和神经网络三者首次汇聚的历史时刻。

空间智能是 AGI 缺失的拼图

视觉的进化用了 5.4 亿年，而语言仅用了不到 50 万年。理解 3D 世界、在 3D 世界中导航与交互，是比语言更古老、更根本的智能形式。LLM 本质上是一维序列建模，而空间智能需要处理 3D 到 2D 的投影、物理规律以及生成与重建之间的连续体。

World Labs：构建 3D 世界的基础模型

Fei-Fei 与 Justin Johnson (实时神经风格迁移)、Ben Mildenhall (NeRF 论文作者)、Christoph Lassner (Pulsar/可微渲染先驱) 三位世界级技术专家共同创立 World Labs，致力于构建超越平面像素和语言的世界模型，应用场景从 3D 创作、游戏到机器人和元宇宙。

智识上的无畏是成功的核心特质

从培养 Andrej Karpathy、Jim Fan 等传奇学生，到创业招聘，Fei-Fei 始终寻找一种统一的品质：智识上的无畏 (intellectual fearlessness)。不论背景和问题领域，拥抱困难、全力以赴的勇气才是成功者的根本特征。