当前位置：首页 > news >正文

ie常用网站设置一二三年级手工

news 2026/5/6 6:01:55

ie常用网站设置,一二三年级手工,网站开发antnw,学校网站制作模板论文地址#xff1a;https://navila-bot.github.io/static/navila_paper.pdf 项目地址#xff1a;https://navila-bot.github.io/ 本文提出了一种名为NaVILA的机器人导航模型#xff0c;旨在解决视觉语言导航问题#xff0c;并允许机器人在更具挑战性和杂乱的场景中进行导… 论文地址https://navila-bot.github.io/static/navila_paper.pdf 项目地址https://navila-bot.github.io/ 本文提出了一种名为NaVILA的机器人导航模型旨在解决视觉语言导航问题并允许机器人在更具挑战性和杂乱的场景中进行导航。该模型采用了两层框架将视觉、语言和行动模型VLA与运动技能相结合。通过预先生成具有空间信息的语言中间动作例如“向前移动75厘米”然后将其作为输入传递给视觉运动强化学习策略以执行任务。实验结果表明NaVILA在现有基准测试上取得了显著改进并且在新的IsaacLab基准测试中也表现出了相同的优势这些基准测试包括更真实的场景、低级控制和真实世界中的机器人实验。 NaVILA用于足式机器人导航的VLA模型本文提出了一种名为NaVILA的机器人导航模型旨在解决视觉语言导航问题并允许机器人在更具挑战性和杂乱的场景中进行导航。该模型采用了两层框架将视觉、语言和行动模型VLA与运动技能相结合。https://mp.weixin.qq.com/s/7addMzPoZOp9AeKjkviviA 01 论文方法 1.1 方法描述本文提出的NaVILA模型是一种结合了视觉语言理解和低级运动控制的系统用于实现在现实世界中的导航任务。该模型采用了高效的预训练视觉语言模型VLM来处理视频输入并将其与低级运动控制器相结合以实现精确的关节运动控制。这种模型设计的优势在于其能够适应不同的环境并具有较强的泛化能力。 1.2 方法改进在本文中作者通过以下方式改进了传统的视觉语言导航模型 1使用图像编码器传统的视觉语言导航模型通常使用图像编码器来处理视频输入。然而由于缺乏大规模、高质量的视频文本数据集这些模型的性能受到了限制。因此本文采用了基于图像的语言模型如VILA它们在理解连续视频序列方面表现出色。 2基于历史观察的导航指令本文提出了一个基于历史观察的导航指令将当前观察和历史观察分别表示为不同类型的标记。这样可以更准确地捕捉到导航任务中不同类型信息的重要性。 3数据融合为了提高模型的泛化能力和避免过拟合本文利用多种来源的数据进行了融合包括真实人类行为视频、仿真数据以及辅助导航数据等。 1.3 解决的问题本文主要解决了以下几个问题 1提高视觉语言导航模型的泛化能力通过引入基于历史观察的导航指令和多源数据融合策略使得模型在不同场景下表现更加出色。 2实现连续动作的预测通过将连续动作分解成多个离散的动作降低了模型的复杂度提高了实际应用的效果。 3提高模型的效率通过单阶段训练策略减少了训练时间并且可以直接在环境中探索新的策略从而提高了模型的效率。 02 论文实验本文介绍了NaVILA在虚拟和真实环境中的导航性能的三个实验并与现有方法进行了比较。第一个实验是在虚拟环境中评估NaVILA的导航性能。作者使用了两个广泛使用的基准数据集R2R和RxR。他们使用了常用的评价指标来评估NaVILA的表现包括导航误差NE、成功率SR、路径长度加权成功率SPL等。结果表明NaVILA在单个模型下显著优于所有基线方法在两个基准测试中都取得了更好的表现。此外该实验还展示了NaVILA的泛化能力即使仅使用单个RGB视图输入也可以实现与使用全景视图、机器人位姿或仿真预训练的路标预测器相当甚至更好的效果。第二个实验是在模拟器中评估NaVILA的足式机器人导航性能。由于现有的足式机器人导航基准不适用于足式机器人因此作者创建了一个新的高保真度基准名为VLN-CE-Isaac。该基准使用Isaac Sim模拟器捕捉了详细的机器人关节运动和与环境的交互可以全面评估整个导航Pipeline从高级规划到精确的机器人执行。作者在Isaac Sim上部署了相同场景并选择了高质量的可通行轨迹以确保现实的导航场景。他们使用相同的指标对性能进行评估并将NaVILA模型应用于Unitree Go2和H1机器人。结果表明NaVILA的视觉策略比盲策略具有更高的成功率这归因于其优越的障碍物避免能力。此外与Oracle低级策略相比NaVILA的成功率也有所下降这突显了基准的挑战和现实性增加。第三个实验是在真实世界中评估NaVILA的导航性能。作者在一个真实的环境中进行了25个指令的实验每个指令重复三次涵盖了简单和复杂的任务并覆盖了三种类型的环境工作区、家庭和户外开放环境。他们使用标准指标成功率和导航误差并将其与GPT-4o进行了比较后者是一种著名的VLM以其强大的泛化能力而闻名。结果表明NaVILA在所有环境下都显著优于GPT-4o并且通过添加人类视频的帮助NaVILA可以在户外场景中更好地泛化并实现更高的成功率。他们的定性结果也在文中展示。综上所述本文展示了NaVILA在虚拟和真实环境中的导航性能并证明了它在不同场景下的优势。 03 方法创新点本文的方法创新点在于提出了NaVILA这一两层框架它能够将视觉语言动作模型VLAs与行走技能相结合用于通用导航任务。具体来说NaVILA使用了以下三个方面的创新 1分离低级执行通过将低级执行从VLAs中分离出来同一组VLAs可以应用于不同的机器人只需更换低级策略即可。 2中级语言指令将动作表示为中级语言指令使得训练数据来源更加丰富包括真实人类视频和推理问答任务等从而增强了推理能力并促进了泛化。 3双频率设计NaVILA采用了双频率设计其中VLAs是一个大型且计算密集型的模型在较低的频率下运行而实时的低级行走策略则负责处理复杂的障碍避免问题增加了整体的鲁棒性。此外本文还提出了一些策略来训练VLAs例如整合历史上下文和当前观察到的信息、创建专门的导航提示以及引入精心挑选的数据集组合等这些策略有助于将通用的图像基VLM细调为专门用于导航的代理并同时在通用的视觉语言数据集上进行训练保持其广泛的一般化能力。 04 未来展望本文提出的方法具有很高的实用性和可扩展性但仍有一些未来的研究方向值得探索。例如可以进一步研究如何提高NaVILA的效率和速度以适应更多的应用场景。此外还可以探索如何将NaVILA与其他技术结合如强化学习或深度强化学习以实现更高水平的自主导航。最后可以考虑将NaVILA扩展到其他类型的机器人如四足机器人或人形机器人以满足更多实际应用的需求。

查看全文

http://www.hkea.cn/news/14551271/