当前位置: 首页 > news >正文

做文化墙的网站写微信小程序需要什么软件

做文化墙的网站,写微信小程序需要什么软件,模板价格多少钱一平方,现在收废品做哪个网站好Exploration by Random Network Distillation (2018) 随机网络蒸馏探索 0、问题 这篇文章提出的随机网络蒸馏方法与Curiosity-driven Exploration by Self-supervised Prediction中提出的好奇心机制的区别#xff1f; 猜想#xff1a;本文是基于随机网络蒸馏提出的intrin…Exploration by Random Network Distillation (2018) 随机网络蒸馏探索 0、问题 这篇文章提出的随机网络蒸馏方法与Curiosity-driven Exploration by Self-supervised Prediction中提出的好奇心机制的区别 猜想本文是基于随机网络蒸馏提出的intrinsic reward设计方式好奇心是基于前向动力学模型的误差设计的intrinsic reward。 1、Motivation 依然旨在为智能体的探索提供一种有效的探索奖励文章还提供一种灵活的结合intrinsic 和 extrinsic reward的方法。 论文使用随机网络蒸馏算法。 问题以往的论文探索奖励是基于智能体过去经验训练的网络的预测误差来量化新经验的新颖性但是最大化这种预测误差的智能体往往会被输入是随机的transition所吸引。举例来说就是如果预测问题是在给定当前观察和动作(前向动态)的情况下预测下一个观察结果那么对于一个transition(st,at,r,st1)输入的st是例如电视雪花一样的随机噪声那么预测出来的st1肯定是误差最大的因此智能体会陷入这种transition中。 于是本论文提出新的方案解决这种问题即在当前观测值的基础上预测一个固定的随机初始化神经网络的输出。 为了结合exploration bonus和extrinsic rewards文章引入了PPO算法的修改版本。 2、方法 Target网络一个固定且随机初始化的网络。 Predictor网络在智能体收集的数据上进行训练的网络。 Target网络对智能体的observation进行映射 f : O → R k f:\mathcal{O}\to\mathbb{R}^k f:O→Rk Predictor网络也对智能体的observation进行映射 f ^ : O → R k \hat{f}:\mathcal{O}\to\mathbb{R}^k f^​:O→Rk 并且通过梯度下降来最小化期望MSE ∥ f ^ ( x ; θ ) − f ( x ) ∥ 2 \|\hat{f}(\mathrm{x};\theta)-f(\mathrm{x})\|^2 ∥f^​(x;θ)−f(x)∥2 以此来更新Predictor网络的参数θ如果observation是Predictor网络没有训练过的那么预测出来的误差将比较高以此可以来作为智能体的探索奖励来推动智能体探索新颖的环境。 3、预测误差的来源以及其他模型的问题 训练数据量。对于Predictor很少看到的类似的例子的observation预测误差很高。随机性。由于目标函数是随机的因此预测误差很高。随机的Transition是前向动力学模型预测误差的来源。模型错误规范。因为缺少必要的信息或者模型类太有限无法适应目标函数的复杂性使得预测误差很高。学习动力。因为优化过程未能在模型类中找到最接近目标函数的预测器所以预测误差很高。 因素1是能用预测误差来作为exploration bonus的原因。因素2会导致基于forward dynamics model的预测误差为exploration bonus的智能体陷入局部熵源中例如“noisy-TV”。 有论文提出了改进方法来避免因素2和3带来的不良影响问题但是这些方法往往是计算昂贵的难以扩展。 而RND方法消除了因素2和3带来的不良影响因为Target网络是被固定下来的并且在Predictor网络的模型类内。 tips【伏羲讲堂】强化学习的探索方法简介 - 知乎 (zhihu.com)对此处有详细解释 4、奖励和Observation归一化 在不同的环境和不同的时间点奖励的规模可能会有很大的不同所以要对exploration bonus进行归一化处理。 对observation进行归一如果缺乏归一化处理嵌入的方差可能会非常低并且携带的关于输入的信息很少。 5、实验 在纯intrinsic reward的实验中发现non-episodic agent比episodic agent表现得更好探索到的房间更多。 针对状态价值结合方式 V V E V I VV_{E}V_{I} VVE​VI​ 实验得出结论在使用两个状态价值函数即状态Extrinsic reward价值函数和状态intrinsic reward价值函数的情况下使用non-episodic的intrinsic reward结合episodic的extrinsic reward这种组合要优于都是episodic的intrinsic reward和extrinsic reward的组合。 而在episodic的设置中使用单个的状态价值函数来直接估计VE和VI的结合分别使用两个状态价值函数分别估计VE和VI效果差不多但是文章的实验还是基于两个状态价值函数这样做是为了将VE和VI与各自不同的特征结合起来。 实验研究extrinsic reward和intrinsic reward折扣因子的性能发现外部奖励的折扣因子越高性能越好而对于内在奖励它会损害探索。实验发现当extrinsic reward的折扣因子γE为0.999intrinsic reward的折扣因子γI为0.99时性能最好但是当γI增加到0.999时性能反而受到了损害。 实验表明在使用不同数量并行环境进行实验时通过调整批次大小并保持内在奖励递减速率恒定能够帮助策略模型有效地利用那些临时的、随着时间消失的内在奖励以促进对于新颖状态的探索和学习。 实验表明基于RNN的策略要更频繁地优于基于CNN的策略因为基于RNN的策略可以保持总结过去的状态。 6、结论 RND探索奖励足以处理局部探索即探索短期决策的结果如是否与特定对象互动或避免它。然而涉及长期协调决策的全局勘探超出了RND方法的范围。 文章指出未来仍然有需要继续研究的地方举了个例子在Montezuma’s Revenge游戏的第一关中智能体要想通关必须打开进入一个由两扇门锁着的房间这就需要两把钥匙。但是整个环境中一共有6扇门和4把钥匙这就意味着智能体需要保留4把钥匙中的2把以留到最后的两扇门中来打开但是打开前面4扇门又能够立即获得外部奖励这意味着智能体需要有足够的内在奖励来使智能体放弃打开前4扇门中的2扇以平衡由于早期使用密钥而失去的外部奖励。可是RND方法并不能很好的实现这种策略。 7、RNDPPO算法的伪代码
http://www.hkea.cn/news/14273477/

相关文章:

  • 兰州财经大学网站开发与维护柳市网站托管
  • 中山如何制作网站计算机前端好找工作吗
  • 建站公司郑州江西宜春市城市建设档案馆网站
  • 蜗牛星际做网站专业的seo网站优化公司
  • 如何做优化网站排名资源下载wordpress
  • 手机版网站建设网上网站建设教程
  • 旅游电子商务网站建设的重要性公司宣传册设计模板
  • 网站规划书500字淘宝运营培训班学费大概多少
  • 图片展示网站学校建设外文网站情况
  • 网站开发语言html无锡新吴区建设局网站
  • 北京工程建设交易中心网站卢松松网站模板
  • 上海建设银行网站莘庄wordpress 腾讯验证码
  • 微信做商城网站产品销售推广方案
  • 网站专栏建设工作方案老地方在线观看免费资源大全
  • 手机网站大全观看商城网站开发时间
  • 自适应网站的代表网站建设三方协议
  • .net 快速网站开发武昌做网站哪家专业
  • 网站售后维护中国建设监理协会网站继续教育
  • 万网做网站怎么样口红做网站多少钱
  • 济南哪里有网站公司邯郸房产网签怎么查询
  • 成都网站成都网站制作公司如何注册一个域名
  • 试用网站空间阿里企业邮箱下载
  • 电商网站欣赏鹰潭市网站建设公司
  • 网上免费个人网站买商标
  • 上海做网站定制查图百度识图
  • 188建站系统源码随身办app下载
  • 网络推广 SEO优化 网站建设建设厅焊工证什么样子
  • 网站淘宝客 没备案怎么做自己的网站到期域名如何续费
  • 中国化工第九建设公司网站wordpress 添加栏目
  • 湖北省建设厅官方网站八大员企业年报系统登录入口