首页 > 软件资讯 > 地平线Aux-Think：为什么测试时推理反而让机器人「误入歧途」？丨开发者说

地平线Aux-Think：为什么测试时推理反而让机器人「误入歧途」？丨开发者说

时间：2025-07-15 12:02:35

论文题目：

Aux-Think: 探索数据高效视觉语言导航的推理策略

论文链接：

https://www.php.cn/link/5e0096402339448552f8dff7015d901d

项目主页：

https://www.php.cn/link/680c256fb6e2c27e27a9d268e8379690

视觉语言导航（VLN）中的推理机制研究

在复杂场景下的视觉语言导航在复杂的视觉语言导航任务中，智能体需依据自然语言指令进行实时路径决策。尽管目前的推理机制在多个领域取得了成功，但在VLN（Visual Language Navigation）任务中的应用却相对较少。首次系统性地分析了不同推理策略对这个任务的影响后发现，当前主流的两种推理方法Pre-Think和Post-Think，在测试阶段反而会降低导航性能，导致任务失败。为解决这一问题，我们提出了一种新的框架Aux-Think（辅助思考）。通过结构创新，有效解决了推理带来的负面影响。这种方法能够在不牺牲现有智能体能力的基础上，提高在复杂场景下的路径决策准确性与效率。

Aux-Think在多种推理策略中表现更优

Aux-Think实现了数据效率与成功率的最佳平衡

测试阶段推理存在的难题

想象一个司机在驾驶时不断地回想交通规则和仔细检查道路状况，这样做的确能帮助他们更好地理解和应对周围的环境，但过份依赖这样的方式可能在不熟悉的路段或复杂的路况中导致错误的判断。

在视觉语言导航任务中，推理过程可以被比喻为“复习规则”，而实际操作则对应于“驾驶行为”。虽然推理旨在帮助智能体理解任务要求，但在未覆盖训练状态时，思维链可能会产生幻觉。特别是在不熟悉环境中，过度依赖推理不仅无法提升决策质量，反而会干扰行动、累积误差，最终导致导航失败。这种“推理失效”现象正是Aux-Think所致力于解决的核心问题。

长推理链中的微小错误（标红）也会引发决策偏差

Aux-Think的解决方案

面对诸如复杂场景推理、大规模知识学习等难题，我们提出了一种全新的推理训练框架Aux-Think。其核心理念是，在训练时利用辅助模型协助推理学习，在测试时则完全依赖智能体已有的知识进行决策，从而实现更加高效和精准的推理与决策过程。具体设计包括：在训练阶段引入多个辅助模型，通过它们的学习逐步完善智能体的推理能力；而在测试阶段，直接采用智能体先前掌握的知识进行快速决策，大幅度减少不必要的推理生成步骤，提高系统的运行效率。这一框架不仅适用于复杂任务学习，也能够有效提升AI系统在各种挑战性场景中的表现。

训练阶段：通过引导模型完成推理任务，使其内化推理逻辑。

测试阶段：仅依赖训练阶段习得的知识进行动作预测，跳过推理步骤。

该设计巧妙地减少了测试期间的不确定性和干扰，让智能体能够在执行任务时更加专注，从而提升了其效能和效率。

上图展示了典型的导航挑战：“从房间入口处穿过并到达右侧的拱门，并停在玻璃桌旁”。这三种策略展示了不同的思维过程和表现：Pre-Think模型试图提前规划路径，尽管错误地将距离设定为m，但它未能识别到当前尚未穿越房间；Post-Think模型则在执行任务后才意识到目标未达到，导致错误无法修正；而Aux-Think模型在训练期间学会了推理逻辑并在测试时直接根据观察判断“右转”，最终精准完成导航。

实验结果验证有效性

大量实验证明，Aux-Think在数据利用效率和导航性能方面均优于现有方法。即便使用较少训练数据，Aux-Think也能在多个VLN基准测试中达到单目视觉方法中的最高成功率。通过将推理过程限制在训练阶段，该方法有效缓解了测试阶段的推理幻觉与错误传播，在长距离动态导航任务中展现出更强泛化能力与稳定性。