当前位置: 首页 > news >正文

用html5做网站的心得体会家乡网站建设策划书

用html5做网站的心得体会,家乡网站建设策划书,成都有什么好玩的地方 排行榜,邢台学校网站建设首先解释这篇工作名称Palm-E#xff0c;发表时间为2023.03#xff0c;其中的Palm是谷歌内部在2022.04开发的大语言模型#xff0c;功能类似ChatGPT#xff0c;只是由于各种原因没有那样火起来#xff0c;E是Embodied的首字母#xff0c;翻译过来就是具身多模态大语言模型…首先解释这篇工作名称Palm-E发表时间为2023.03其中的Palm是谷歌内部在2022.04开发的大语言模型功能类似ChatGPT只是由于各种原因没有那样火起来E是Embodied的首字母翻译过来就是具身多模态大语言模型大模型我们一般习惯将其称为具身多模态大模型。 何为具身这个词听起来非常陌生简单说就是AIagent机器人是其中一种agent的结合强调的的agent通过与环境互动来获取智能类似人类获得智能的范式博主将在之后的博客里做专门篇幅讲解欢迎大家继续关注下面开始来详细拆解这篇论文。 Palm-E两大任务视觉问答(VQA)和具身任务规划 Palm-E用统一的网络架构和训练方式进行多任务主要包括视觉问答(VQA)和具身任务规划。 具身任务规划 该任务要求大模型能理解人类的语言和意图还需要机器人观察和操作环境中的物体以及规划一系列的子目标和动作。其输入是多模态的输入如文本、图像、触觉信息以及机器人的3D空间状态等输出可被机器人逐步执行的任务步骤比如当我们让其去抽屉里拿薯片Palm-e会输出如下子任务步骤而后机器人利用其它模块(我们称之为Policy本工作用了RT1和LAVA这两个Policy来执行这些步骤skill)来逐步执行之 step1导航到抽屉 step2打开抽屉 step3取出薯片 step4关闭抽屉 step5导航至主人处 step6将薯片交给主人 VQA 该任务与agent无关用户输入图片和想问的问题大模型输出对问题的文字回复。 贡献 提出和演示一个通用的,可迁移学习的智能决策的多模态大模型训练方面引入先进的结构思想使得可以对多模态输入数据进行符号表征用于训练推理如neural scene representations entity-labeling multimodal tokens.除了具身推理embodied reasoner PaLM-E也是一个视觉语言方面的通才演示了增大模型的规模可以极大地提升多模态大模型性能特别是减少灾难性遗忘(catastrophic forgetting) Palm-E网络结构 整个网络的结构如上所示多模态数据(图像文本物体状态等)经过特定的编码后直接输送到大语言模型借助大语言模型的能力输出文字这些文字可以是对问题的回复也可以是对任务的规划。看上去大家都应该学fei了 训练与实验 文章大篇幅介绍了相关实验实验数据集如下主要包括网络VQA数据和机器人轨迹数据。 实验通过消融对比了不同大语言模型规模和训练方式对任务的影响。 VQA任务 VQA不是本工作的核心但附带也能进行此类认为因此也做了相关测评该实验对比了不同规模模型和训练方式对该任务的影响结果如下 纯语言任务 该实验对比了不同规模模型对纯语言问答任务的影响。 机器人具身规划任务 这一部分是本工作的核心验证了大语言模型规模和训练方式对该任务的影响分别在TAMP(纯规划)Language table(机械臂桌面push任务)和机器人移动操作任务室内移动操作任务上进行对比。 TAMP(Task and Motion Planning)任务 Language-Table 在该任务中Palm-E规划任务将高层次的人类语言转化成多个机器人可执行步骤然后调用LAVA这个工作执行整个工作流程如下所示 一些实验结果如下所示 移动操作任务 可供性评估Affordance prediction和失败检测 Affordance是指根据图片判断某个子任务skill可否被成功执行失败检测是指根据观测判断任务是否被成功完成两者都是机器人闭环任务规划的一大重要环节对比结果如下 长水平规划(Long-horizon) 实验摘要和讨论 通用性与特定任务模型–迁移性(Generalist vs specialist models – transfer) 利用多任务数据训练最终可对单个任务起促进作用。但这个实验博主觉得不太严密缺乏一个full only robot data实验 数据有效性(Data efficiency 机器人的数据很难获得但通过大量网络数据的训练Palm-E也可在少量机器人数据上训练出一个不错的用于任务规划的模型体现了一定的迁移性OSRT的结果展示了另一种数据有效性的示例–使用集合输入表征。 保存纯语言能力 论文介绍了两种方法 训练过程中freeze住LLM模型但这可能会使得在机器人任务中很失败使用足够大的LLM模型。 总结 我们提出通过将图像等多模态信息注入到具身语言模型中来构建具身多模态大语言模型。实验表明现成的最先进的视觉语言模型仅接受一般 VQA 和字幕任务的训练还不足以用于具身推理任务也有近期的工作表明了其在可供性评估上的局限性为了克服这些局限性我们提出PaLM-E一个单一模型能够在模拟和现实世界中控制不同的机器人同时 具备一般视觉语言任务能力。尤其是将新颖的神经场景表示 即 OSRT应用到Pla-E使得即使没有大规模数据该模型在机器人多任务中也特别有效。重要的是我们也证明这种多模态训练带来多种迁移能力——将语言融入具身决策规划中从而使机器人更高效地完成规划任务。尽管我们的结果表明冻结语言模型是可行的使得通向通用具身多模式模型的道路同时完全保留语言能力我们还提出了使用解冻模型的替代途径增加语言模型的大小会显着减少灾难性遗忘。最大的模型PaLM-E-562B展示了强大的思维链能力和视觉图像任务能力。 个人思考 谷歌Palm-E的工作向我们展示了将大语言模型和多模态应用于机器人具身规划中可以动态规划任务同时展现了一定的迁移泛化性。但这个工作比较难以复现模型易懂但其中最大问题就在于它需要大量的数据如同大多数其他AI工作一样机器人具身大规模数据才是最大的瓶颈。
http://www.hkea.cn/news/14518211/

相关文章:

  • 网站制作便宜个人备案网站做淘宝客
  • 网站开发保密协议范本平面设计网站编辑招聘
  • 北京网站优化效果乐陵森洁新能源有限公司电话
  • 建立第一个网站企业展厅设计效果图
  • 天水网站建设博客怎么做wordpress主题
  • 招标网站平台有哪些网站seo优化费用
  • 网站可以做什么最快网站备案
  • 公主岭网站开发长沙抖音推广代运营公司
  • 国产手机做系统下载网站上海网络营销培训
  • 京东联盟网站建设电脑版高端网站建设方案报价
  • 申请个人手机网站空间知名的设计网站
  • 备案网站域名查询西安网上注册公司流程
  • 怎么做淘宝网站赚钱吗wordpress音频播放不了
  • 建一个门户网站多少钱网站备案和实名认证
  • .net做的大型网站吗迁移wordpress本地到服务器
  • 网站404页面源码wordpress最多文章
  • 凡科 建设淘宝客网站做网站应怎么缴税
  • 建网站和开发app哪个难湖南关键词排名推广
  • 手机创建个人网站 免费新媒体销售好做吗
  • 重庆网站seo多少钱中信建设网站
  • 免费网站建设平台 iis建设网站 翻译
  • 有人做家具网站中介吗外贸电商怎么做
  • 怎么注册一个网站百度推广让我先做虚拟网站后
  • 清风算法受影响的网站c 网站开发用的人多吗
  • 域名网站是什么做网站排在前十名要多少钱
  • 软件工程师招聘简章win7系统优化工具
  • 娄底市网站建设深圳市网络营销推广服务公司
  • android开发和网站开发万网怎样做网站调试
  • 营销型网站建设怎么做试看30秒做受小视频网站
  • 高端模板建站报价seo技术大师