ECCV 2020 | 基于对抗路径采样的反事实视觉语言导航

关注并星标

从此不迷路

Jiangmen

From： UCSB；编译： T．R

ECCV 2020系列文章专题

第·4·期

本文将分享加州大学助理教授王鑫和王威廉等人在ECCV spotlight的工作。为了实现VLN智能体，不仅需要学习理解语言语义和视觉环境，同时还要适应视觉语言交互情况下的动态变化，研究人员提出了一种对抗驱动的反事实思考方法。模型通过学习评价有效的反事实条件来代替采样充分但信息不足的数据，最终形成了一种比随机采样路径方法更为有有效的对抗策略。

▼

好消息，我“门”首次举办的顶会线上活动——将门「ECCV 2020鲜声夺人云际会」火热报名中，点击这里抢占席位！

视觉语言导航（Vision－and－language navigation， VLN）是机器人基于自然语言指令在3D环境中进行移动以到达目标的任务。它不仅需要理解自然语言信息，同时还需要将周围环境的视觉信息进行编码，在语言指令的引导下利用场景的关键特征来向目标位置移动。

为了实现VLN智能体，不仅需要学习理解语言语义和视觉环境，同时还要适应视觉语言交互情况下的动态变化。这一复杂的任务所面临的最大困难在于训练数据的稀缺性。例如在Room－to－Room（R2R）数据集中包含了超过二十万条可能的路径，但数据集中却只有大约一万四千条采样路径。如此稀缺的数据使得智能体在交换环境中学习语言和视觉任务的优化匹配问题变得十分困难。

而对于人类来说，通常缺乏结合视觉感知和语言指令来对不熟悉的环境进行探索的能力，然而人类的思维还是可以利用反事实推理来完善缺失的信息。例如，如果人类按照“右转”的指令但看到了门挡在前面，人们就会自然而然的思考要是左转会遇到什么情况；如果我们停在餐桌前而不是径直走过，那么指令应该是什么样的呢？我们可以看到反事实推理可以通过探索并考量可能的行为方式（并没有实际发生，类似于设想）来改进VLN任务的表现。这可以使得主体在数据缺乏的场景下通过环境的引导熟悉（bootstrapping familiarity）和指令与多个行为策略选项中的联系来进行有效操作。

反事实思考已经被用于多种任务来增强模型的鲁棒性，但还没有显式的反事实模型被针对性地用于VLN任务中。虽然有像Speaker－Follower这样的方法对训练样本进行了增强，但随机采样方法太任意了。下图展示了基于随机采样增强数据训练的模型性能随增强比例的变化，可以看到在60％以后性能几乎就不再增加。这是由于这些路径都是随机采样的，限制了反事实思考对于数据增强的所带来的提升。

随机采样和APS采样的对比，可以看到随机手段对性能的提升会遇到瓶颈。

在这篇论文中，研究人员提出了一种对抗驱动的反事实思考方法，模型通过学习评价有效的反事实条件来代替采样充分但信息不足的数据。研究人员首先引入了模型未知的对抗路径采样器（adversarial path sampler， APS）来生成富有挑战并有效的增强路径，作为目标导航模型的训练样本。在对抗训练过程中，导航器尝试着去完成APS生成的路径并更好地优化导航策略，而APS的目标则在于不断生成更具挑战性的路径。这种对抗策略比随机采样路径方法更为有有效。

此外在APS的增强下，模型对于陌生场景和未知场景具有更好地适应性，实现基于环境的预探索机制。这样在进入新环境后，机器人可以首先对其进行预探索并熟悉环境，随后在自然语言的引导下完成任务。在R2R数据集上的结果表明APS可以被集成到多种VLN模型中，大幅提升已知和未知环境中的性能。

一、方法架构

本文的核心——模型未知的对抗路径采样器显示如下，首先APS从路径集P中采样出一批路径、并利用Speaker来得到复现的指令I。

对抗采样器APS的学习架构，其中Speaker表示用于生成导航指令的反向翻译语言模型，而NAV表示导航模型。

在获取路径P和指令I后，模型的目标就在于优化导航损失函数。针对APS学习采样的路径，导航器并不能通过最大化导航损失来得到较好的性能。针对导航损失在导航模型NAV和APS之间会产生对抗的行为，APS不断采样出有挑战性的路径，同时NAV则尝试着在APS申请的路径中进行导航完成任务。通过这种对抗方法，基于P和I生成的对抗增强数据将有效提升NAV的导航能力。在实际过程中，Speaker和导航器都通过原始数据进行了预训练，同时Speaker在对抗训练过程中参数保持固定。

在本文中，研究人员使用了回归行为采样器πAPS来采样行为序列at（基于场景特征ft），并结合得到路径输出。其中ft表示从环境中抽取的视觉特征。对于全景输入图像来说，ftj表示时间t时从视角j获取的视觉特征。

对抗采样器的架构模型

模型首先利用LSTM对先前的视觉特征和上一步行为进行编码，而后基于历史编码和行为嵌入u来决定此时此刻需要采取的行为。APS模型中包含了一系列可学习的权重，具体可以在原文3．3部分找到详细的理论描述。

在通过APS处理后，将得到的一系列导航历史｛at｝和视觉特征｛ftj｝组建成路径P。为了保持与原始训练数据的一致性（其导航路径都是最短路径），需要将APS采样得到的路径转换为最小路径。随后通过Speaker模型为每一条采样路径P生成指令I，最终将得到增强过的数据对（P，I）。随后通过“学生强制”的方法基于（P，I）来对导航模型进行训练，其中训练损失以可以视为NAV在（P，I）下的性能指标，损失越高性能越差。为了创造难度不断增加的路径来改善导航策略，研究人员将APS损失定义为了与LAN损失相关的表示：

由于APS与模型无关，它仅仅考虑导航模型训练损失而不关系模型架构，所以这种机制可以被集成到任意的导航模型中去。

下面的算法展示了整个对抗路径采样器的训练过程，APS目标是最大化导航损失以便创建尽可能困难的路径，而NAV的目标则是最小化导航损失以便进行更好的导航。

为了提升对于未知环境的适应性，预探索也被应用到了整套系统中去。导航器可以首先探索不熟悉的环境，并增加在未知环境中执行导航指令的机会。针对先前的预探索方法，像束搜索和自模仿学习，他们基于指令并对每一条指令进行优化，但这种方法会造成路径过长。在真实环境中部署机器人到陌生环境时，首先要熟悉环境并有效地在环境中执行自然语言指令。

与先前方法优化给定指令或假设一次性覆盖所有未知环境不同，本文提出了利用APS方法来实现基于环境的预探索，可以使得智能体仅仅针对同一环境中的任务进行环境预探索，而无需先验知识。在未知环境中，利用APS来采样多条路径P’并生成导航指令I’。随后利用（P’，I’）来优化位置环境中的NAV。在预探索过程中，固定APS参数而仅仅优化NAV。通过这样的方法可以有效提升模型对于未知环境的适应能力。

未知环境中的预探索优化流程。APS对未知环境进行采样来优化NAV。
二、实验结果

为了验证这种方法的有效性，研究人员在视觉语言导航数据集R2R（Room－to－Room）上进行了实验。实验分别针对Seq2Seq、Speaker－Follower、RCM等三个基准进行，分别为其增加随机采样增强路径、APS采样增强路径观察导航误差（Navigation Error）、成功率（Oracle Success Rate，Success Rate）、路径长度加权的成功率（Success Rate weighted by Path Length），其结果如下表所示：