← Back to Videos
Y Combinator 2025.07.22

Chelsea Finn:构建无所不能的机器人

Physical Intelligence 联合创始人、Stanford 教授 Chelsea Finn 深度分享:如何开发通用机器人基础模型,让任何机器人在任何环境中完成任何任务 -- 从叠衣服到清理厨房,从预训练到后训练的完整技术路径

Speaker
Chelsea Finn
Duration
44:52
Date
2025.07.22
Category
YC 访谈

「要真正解决一个机器人应用,你基本上需要围绕那个应用建一整家公司。我们的目标是开发一个通用模型,让任何机器人在任何环境中完成任何任务 -- 就像语言基础模型改变了 NLP 一样。」—— Chelsea Finn

👤 嘉宾介绍

C
Chelsea Finn
Physical Intelligence 联合创始人 / Stanford 副教授
机器人学习领域顶尖研究者,Meta-Learning 先驱。2024 年联合创立 Physical Intelligence,致力于开发通用机器人基础模型,让机器人真正走进物理世界。在 Stanford 领导机器人学习实验室超过 10 年

📑 内容章节

00:00通用机器人的核心挑战:为什么每个应用都要建一家公司
01:48数据规模的局限性:工业数据、YouTube 和仿真的不足
04:56Pi Zero 基础模型:从叠衣服看灵巧长程任务
11:03Vision Language Action Model:3B 参数模型的突破
17:34机器人能否在从未去过的地方成功:跨环境泛化
25:33开放式指令与实时纠正:让机器人理解自然语言
30:50总结与未来展望:通用物理智能的路线图
31:27Q&A:后训练、强化学习、合成数据与学术 vs 工业

💡 核心观点

1

预训练 + 后训练:机器人的「大语言模型时刻」

就像大语言模型从海量数据预训练再通过精选数据微调一样,机器人基础模型也需要先在所有机器人数据上预训练,再在高质量、策略一致的示范数据上后训练。这一 recipe 让叠衣服任务从 0% 成功率跃升至可靠完成,并且可以迁移到清理桌面、点蜡烛等其他任务。

2

数据规模必要但不充分

工业自动化数据规模庞大但缺乏行为多样性;YouTube 视频无法直接转化为机器人技能(我们不会通过看别人写字学会写字);仿真数据缺乏真实性。真实世界的机器人数据不可替代,但还需要多样性和质量的正确组合。强化学习产生的在线数据是机器人领域真正的「合成数据」。

3

跨环境泛化已初步实现

通过在 100 多个不同房间收集数据并结合多样化的静态操作数据进行预训练,机器人可以在从未到过的 Airbnb 房屋中成功执行清洁、整理任务,成功率达到约 80%。移动操作数据仅占预训练混合数据的 2.4%,但其他数据的加持让泛化性能提升超过 20%。

4

合成语言数据解锁开放式交互

通过用语言模型为现有机器人数据生成假设性的人类提示词,可以训练机器人理解开放式自然语言指令和实时纠正。机器人不仅能理解「给我做个素食三明治,但不要泡菜」,还能在执行过程中响应用户的实时干预和修改请求。