当前位置: 首页 > news >正文

湖北专业网站建设质量保障wordpress编辑媒体永久链接

湖北专业网站建设质量保障,wordpress编辑媒体永久链接,wordpress自定页面,免费域名注册查询策略梯度方法 (PG#xff1a;Policy Gradient) 是强化学习 (RL#xff1a;Reinforcement Learning) 中常用的算法。 1、从库里的本能开始 PG的原理很简单#xff1a;我们观察#xff0c;然后行动。人类根据观察采取行动。 引用斯蒂芬库里的一句话#xff1a; 你必须依靠…策略梯度方法 (PGPolicy Gradient) 是强化学习 (RLReinforcement Learning) 中常用的算法。 1、从库里的本能开始 PG的原理很简单我们观察然后行动。人类根据观察采取行动。 引用斯蒂芬·库里的一句话 你必须依靠这样一个事实你付出了努力来创造肌肉记忆然后相信它会发挥作用。你如此多地练习和努力的原因是在比赛过程中你的直觉会在一定程度上发挥作用。 如果你没有以正确的方式去做就会感觉很奇怪。 不断的练习是运动员建立肌肉记忆的关键。 对于 PG我们训练一个基于观察来采取行动的策略。 PG 中的训练使得高奖励的行动更有可能发生反之亦然。 我们保留有效的丢弃无效的。 在策略梯度方法中库里是我们的代理人。 他观察环境的状态。他根据自己对状态 s 的本能策略 π采取行动u。他移动对手做出反应。 一个新的状态形成了。他根据观察到的状态采取进一步的行动。经过 运动轨迹τ 后他根据收到的总奖励 R(τ) 调整自己的本能。 库里看到了情况并立即知道该怎么做。 多年的训练完善了最大化回报的本能。 在强化学习中本能可以在数学上描述为 即在给定状态 s 的情况下采取动作 u 的概率。 π 是强化学习中的策略。 例如当你看到前面有车时转弯或停车的机会有多大 2、策略梯度的学习目标 我们如何用数学方式制定我们的目标 期望得到的奖励等于轨迹的概率×相应奖励之和 我们的目标是找到策略 θ使其可以创建轨迹 τ 而轨迹τ能够最大化预期回报 3、输入特征和奖励 策略梯度方法的输入即状态s可以是手工制作的状态特征如机械臂关节的角度、速度等但在某些问题领域强化学习已经足够成熟可以直接处理原始图像。 π 可以是一个确定性策略它输出要采取的确切操作如向左或向右移动操纵杆也可以是一个随机策略它输出它可能采取的行动的可能性。 我们记录每个时间步给出的奖励 r。 在篮球比赛中除了终止状态为0、1、2或3外其他状态均为0。 我们再引入一个术语 H称为地平线。 我们可以无限期地运行模拟过程h→∞直到达到终止状态或者我们对 H 步设置限制。 4、优化问题 首先让我们回顾一下深度学习和强化学习中常见且重要的技巧函数 f(x) (R.H.S.) 的偏微分等于 f(x) 乘以 log(f(x)) 的偏微分 将 f(x) 替换为 π得到 另外对于连续空间期望可以表示为 现在让我们用数学形式形式化我们的优化问题。 我们想要建立一个策略模型该模型能够产生最大化总回报的轨迹 然而要使用梯度下降来优化我们的问题我们是否需要对奖励函数 r 求导而该导数可能不可微分或形式化 让我们将目标函数 J 重写为 梯度策略梯度变成 好消息 策略梯度可以表示为期望 这意味着我们可以使用采样来近似它。 此外我们对 r 的值进行采样但不对其进行微分。 这是有道理的因为奖励并不直接取决于我们如何参数化模型但轨迹 τ 是。 那么log π(τ) 的偏导数是多少。 π(τ) 定义为 取对数 第一项和最后一项不依赖于 θ可以删除。 所以策略梯度 变成 我们使用这个策略梯度来更新策略θ。 5、关于梯度更新的直觉 我们如何理解这些公式 下划线项是最大对数似然。 在深度学习中它测量观察到的数据的可能性。 在我们的背景下它衡量当前策略下轨迹的可能性。 通过将其与奖励相乘如果轨迹产生高额正奖励我们希望增加策略的可能性。 相反如果一个策略导致较高的负面回报我们希望降低该策略的可能性。 简而言之保留有效的丢弃无效的。 如果爬上山意味着更高的奖励我们将更改模型参数策略以增加轨迹向上移动的可能性 策略梯度有一件重要的事情。 轨迹的概率定义为 轨迹中的状态密切相关。 在深度学习中与强相关因子的长序列相乘很容易触发梯度消失或梯度爆炸。 然而策略梯度只是对梯度进行求和从而打破了长序列相乘的诅咒。 这使用了一个小技巧 创建最大对数似然并且对数打破了长链策略相乘的诅咒。 6、基于蒙特卡洛走子的策略梯度 下面是使用Monte Carlo rollouts来计算奖励的强化学习算法。 即播放整个情节episode来计算总奖励 可以使用许多深度学习软件包轻松计算策略梯度。 例如这是 TensorFlow 的部分代码 是的通常情况下编码看起来比解释更简单。 7、使用高斯策略进行连续控制 我们如何建立连续控制模型 假设动作的值是高斯分布的 该策略是使用高斯分布定义的其平均值是根据深度网络计算得出的 以及 我们可以将 log π 的偏微分计算为 所以我们可以反向传播 通过策略网络π来更新策略θ。 该算法看起来与以前完全相同。 只需以稍微不同的方式开始计算策略的对数即可 8、策略梯度改进 策略梯度存在高方差和低收敛性的问题。 蒙特卡洛播放整个轨迹并记录轨迹的确切奖励。 然而随机政策可能在不同时期采取不同的行动。 一个小转弯就可以完全改变结果。 所以蒙特卡罗没有偏差bias但方差variance很高。 方差会损害深度学习优化。 方差为模型学习提供了冲突的下降方向。 一个采样的奖励可能想要增加对数可能性而另一个采样的奖励可能想要减少它。 这会损害收敛性。 为了减少由动作引起的方差我们希望减少采样奖励的方差。 增加 PG 中的批大小可以减少方差。 然而增加批大小会显着降低样本效率。 所以我们不能将其增加太多我们需要额外的机制来减少方差。 8.1 基线 我们可以在优化问题中减去一项只要该项与 θ 无关。 因此我们不使用总奖励而是用 V(s) 减去它。 我们定义优势函数 A 并根据 A 重写策略梯度 在深度学习中我们希望输入特征以零为中心。 直观上强化学习感兴趣的是了解某个动作是否执行得比平均值更好。 如果奖励总是正数R0PG 总是尝试增加轨迹概率即使它收到的奖励比其他人少得多。 考虑两种不同的情况 情况1轨迹A获得10奖励轨迹B获得-10奖励。情况2轨迹A获得10奖励轨迹B获得1奖励。 在第一种情况下PG会增加轨迹A的概率同时减少B的概率。在第二种情况下它将增加两者。 作为人类我们可能会降低这两种情况下轨迹 B 的可能性。 通过引入 V 这样的基线我们可以重新调整相对于平均动作的奖励。 8.2 普通策略梯度算法 这是使用基线 b 的策略梯度算法的通用算法。 8.3 因果性 未来的行动不应改变过去的决定。 当前的行动只会影响未来。 因此我们可以改变我们的目标函数来反映这一点 8.4 奖励折扣 奖励折扣减少了差异从而减少了远期操作的影响。 这里使用不同的公式来计算总奖励 相应的目标函数变为 原文链接策略梯度简明教程 - BimAnt
http://www.hkea.cn/news/14261036/

相关文章:

  • 网站开发培训那个好wordpress主页不显示
  • 大理旅游网站建设电子厂网站建设方案书怎么写
  • 哪个网站能免费做电子书封面济南高端网站
  • 免费网站排名优化软件重庆网络公司招聘
  • 适合网站开发的框架wordpress 用户排序
  • 四川省凉亭建设工程有限公司网站浏览器哪个好
  • 住房和城乡建设部网站注册如何选择网站空间
  • 做网站认证违法吗甘肃企业网络推广软件
  • 网站建设与运营的市场北京网站制作沈阳
  • 国内做微商城比较知名的网站在服务器上运行wordpress
  • 郑州公司建设网站全屋定制十大名牌排行2023
  • 泉州网站建设技术外包本地网站做不大
  • 中文网站建设设计辽宁省工程新希望官网
  • 动力网站建设wordpress tag小图标
  • 怎么网站显示翻页代码郑州市网站制作公司
  • 建立一个网站需要多少钱费用合肥网站推广 公司
  • 云凡济南网站建设开发优秀包装设计网站
  • 家有购物官网做网站程序的都不关注seo
  • 番禺商城网站建设新河网新河吧
  • 网站备案去哪注销注册公司最少要多少钱
  • 在线医疗 网站建设网站建设的闪光点
  • 做pc端网站包括哪些最好网站开发公司电话
  • 公众号开发制作优化措施二十条
  • 大理州住房和城乡建设局官方网站crm软件排行榜
  • 网站域名被注销重新备案怎么做深圳营销型网站开发
  • dreamwearver做网站重庆网站建设的目的
  • 如何评判网站建设岗位怎么把网站推广
  • 专门做包包的网站金蝶软件是干什么的
  • 旅游网站建设流程是什么意思战略网页游戏开服表
  • 合肥培训网站建设店铺推广和网站优化一起做