Physical Intelligence 联合创始人、Stanford 教授 Chelsea Finn 深度分享:如何开发通用机器人基础模型,让任何机器人在任何环境中完成任何任务 -- 从叠衣服到清理厨房,从预训练到后训练的完整技术路径
「要真正解决一个机器人应用,你基本上需要围绕那个应用建一整家公司。我们的目标是开发一个通用模型,让任何机器人在任何环境中完成任何任务 -- 就像语言基础模型改变了 NLP 一样。」—— Chelsea Finn
就像大语言模型从海量数据预训练再通过精选数据微调一样,机器人基础模型也需要先在所有机器人数据上预训练,再在高质量、策略一致的示范数据上后训练。这一 recipe 让叠衣服任务从 0% 成功率跃升至可靠完成,并且可以迁移到清理桌面、点蜡烛等其他任务。
工业自动化数据规模庞大但缺乏行为多样性;YouTube 视频无法直接转化为机器人技能(我们不会通过看别人写字学会写字);仿真数据缺乏真实性。真实世界的机器人数据不可替代,但还需要多样性和质量的正确组合。强化学习产生的在线数据是机器人领域真正的「合成数据」。
通过在 100 多个不同房间收集数据并结合多样化的静态操作数据进行预训练,机器人可以在从未到过的 Airbnb 房屋中成功执行清洁、整理任务,成功率达到约 80%。移动操作数据仅占预训练混合数据的 2.4%,但其他数据的加持让泛化性能提升超过 20%。
通过用语言模型为现有机器人数据生成假设性的人类提示词,可以训练机器人理解开放式自然语言指令和实时纠正。机器人不仅能理解「给我做个素食三明治,但不要泡菜」,还能在执行过程中响应用户的实时干预和修改请求。