Y Combinator 2025.07.22

Chelsea Finn：构建无所不能的机器人

Physical Intelligence 联合创始人、Stanford 教授 Chelsea Finn 深度分享：如何开发通用机器人基础模型，让任何机器人在任何环境中完成任何任务 -- 从叠衣服到清理厨房，从预训练到后训练的完整技术路径

Speaker

Chelsea Finn

Duration

44:52

Date

2025.07.22

就像大语言模型从海量数据预训练再通过精选数据微调一样，机器人基础模型也需要先在所有机器人数据上预训练，再在高质量、策略一致的示范数据上后训练。这一 recipe 让叠衣服任务从 0% 成功率跃升至可靠完成，并且可以迁移到清理桌面、点蜡烛等其他任务。

工业自动化数据规模庞大但缺乏行为多样性；YouTube 视频无法直接转化为机器人技能（我们不会通过看别人写字学会写字）；仿真数据缺乏真实性。真实世界的机器人数据不可替代，但还需要多样性和质量的正确组合。强化学习产生的在线数据是机器人领域真正的「合成数据」。

通过在 100 多个不同房间收集数据并结合多样化的静态操作数据进行预训练，机器人可以在从未到过的 Airbnb 房屋中成功执行清洁、整理任务，成功率达到约 80%。移动操作数据仅占预训练混合数据的 2.4%，但其他数据的加持让泛化性能提升超过 20%。

通过用语言模型为现有机器人数据生成假设性的人类提示词，可以训练机器人理解开放式自然语言指令和实时纠正。机器人不仅能理解「给我做个素食三明治，但不要泡菜」，还能在执行过程中响应用户的实时干预和修改请求。

👤 嘉宾介绍