← Back to Videos
Y Combinator 2025.07.01

Fei-Fei Li:空间智能是 AI 的下一个前沿

斯坦福教授、「AI 教母」李飞飞在 YC 活动中深度分享:从 ImageNet 的诞生到空间智能的宏大愿景,从创办 World Labs 的初心到对 AGI 定义的思考,以及她对创业者和研究者的真挚建议

Guest
Fei-Fei Li
Interviewer
Diana Hu
Duration
44:22
Channel
Y Combinator

「在我看来,AGI 如果没有空间智能就不完整。我要解决的就是这个问题。我的整个职业生涯都在追逐那些难到近乎疯狂的问题。」—— Fei-Fei Li

👤 嘉宾介绍

F
Fei-Fei Li (李飞飞)
Stanford 教授 / World Labs 创始人兼 CEO
被誉为「AI 教母」,ImageNet 项目创始人,斯坦福以人为本 AI 研究院 (HAI) 联合创始人。2024 年创办 World Labs,致力于解决空间智能这一 AI 领域的根本性问题
D
Diana Hu
Y Combinator Partner
YC 合伙人,主持本场炉边对话,引导 Fei-Fei 分享从 ImageNet 到 World Labs 的完整技术与创业历程

📑 内容章节

00:00开场:追逐近乎疯狂的难题
01:02ImageNet 的诞生:数据驱动范式的开端
05:01AlexNet 时刻:深度学习、GPU 与数据的三位一体
08:53从物体识别到场景描述:实现毕生梦想
12:45空间智能:为什么 AGI 离不开 3D 世界理解
18:18为什么视觉比语言更难:1D vs 3D 的本质差异
23:48World Labs:3D 世界模型的应用前景
25:40从移民少女到创业者:零到一的人生经历
29:26培养传奇学生的秘诀:智识上的无畏
32:10Q&A:博士生该研究什么方向
34:40Q&A:AGI 是统一模型还是多智能体系统
37:50Q&A:什么样的人适合读研究生
39:10Q&A:开源与闭源的生态平衡
42:40Q&A:作为少数群体的心态与勇气

💡 核心观点

1

ImageNet 引爆了深度学习革命

2007 年,Fei-Fei 和学生决定下载 10 亿张互联网图片,创建世界上最大的视觉分类数据集。当时 AI 几乎无人问津,但她坚信数据驱动方法将带来范式转移。2012 年 AlexNet 在 ImageNet 挑战赛上的突破,是数据、GPU 和神经网络三者首次汇聚的历史时刻。

2

空间智能是 AGI 缺失的拼图

视觉的进化用了 5.4 亿年,而语言仅用了不到 50 万年。理解 3D 世界、在 3D 世界中导航与交互,是比语言更古老、更根本的智能形式。LLM 本质上是一维序列建模,而空间智能需要处理 3D 到 2D 的投影、物理规律以及生成与重建之间的连续体。

3

World Labs:构建 3D 世界的基础模型

Fei-Fei 与 Justin Johnson (实时神经风格迁移)、Ben Mildenhall (NeRF 论文作者)、Christoph Lassner (Pulsar/可微渲染先驱) 三位世界级技术专家共同创立 World Labs,致力于构建超越平面像素和语言的世界模型,应用场景从 3D 创作、游戏到机器人和元宇宙。

4

智识上的无畏是成功的核心特质

从培养 Andrej Karpathy、Jim Fan 等传奇学生,到创业招聘,Fei-Fei 始终寻找一种统一的品质:智识上的无畏 (intellectual fearlessness)。不论背景和问题领域,拥抱困难、全力以赴的勇气才是成功者的根本特征。