前沿技术

视觉语言导航与记忆机制:具身智能体如何学会「记住」并抵达

从 R2R 到 DualVLN 的方法演进,到空间地图、情景检索、潜空间记忆六条记忆路线——为什么「记忆」是导航从短程反应走向长程泛化的决定性组件,以及它背后的产业与资本版图

Pro 限定研报

2026-06-15 30 篇信源 读完约 19 分钟

一句话先说清:导航与记忆,为什么放在一起讲

视觉语言导航(Vision-Language Navigation, VLN)的任务很好描述:给智能体一句自然语言指令——"走到走廊尽头,在厨房左转,停在沙发旁"——让它仅凭第一人称视觉,在一个从未见过的三维环境里走到目标[1]。它处在具身智能必须同时解决的三件事的交点上:看懂画面(感知)、把词对到地点与物体(语言接地)、在看不全地图的情况下连续决策(部分可观测下的序列决策)。