视觉语言导航与记忆机制：具身智能体如何学会「记住」并抵达

一句话先说清：导航与记忆，为什么放在一起讲

视觉语言导航（Vision-Language Navigation, VLN）的任务很好描述：给智能体一句自然语言指令——"走到走廊尽头，在厨房左转，停在沙发旁"——让它仅凭第一人称视觉，在一个从未见过的三维环境里走到目标^[1]。它处在具身智能必须同时解决的三件事的交点上：看懂画面（感知）、把词对到地点与物体（语言接地）、在看不全地图的情况下连续决策（部分可观测下的序列决策）。