当前位置: 首页 > news >正文

河南省和城乡建设厅网站首页做冠县梨园网站怎么做

河南省和城乡建设厅网站首页,做冠县梨园网站怎么做,电子商务网站建设渠道,济南网站价格文章目录 DQN (Deep Q-Network)说明伪代码应用范围 Double DQN说明伪代码应用范围 Dueling DQN实现原理应用范围伪代码 Per DQN (Prioritized Experience Replay DQN)应用范围伪代码 NoisyDQN伪代码应用范围 部分内容与图片摘自#xff1a;JoyRL 、 EasyRL DQN (Deep Q-Networ… 文章目录 DQN (Deep Q-Network)说明伪代码应用范围 Double DQN说明伪代码应用范围 Dueling DQN实现原理应用范围伪代码 Per DQN (Prioritized Experience Replay DQN)应用范围伪代码 NoisyDQN伪代码应用范围 部分内容与图片摘自JoyRL 、 EasyRL DQN (Deep Q-Network) 说明 DQN通过深度学习技术处理高维状态空间它的核心是使用深度神经网络来近似Q值函数。传统Q-learning依赖于一个查找表Q表来存储每个状态-动作对的Q值但这在高维空间中变得不可行。DQN通过训练一个神经网络来学习这个映射关系。 除了用深度网络代替 Q表之外DQN算法还引入了一些技巧如经验回放和目标网络。 经验回放通过存储代理的经验状态动作奖励新状态在回放缓存中并在训练时从中随机抽样这样做可以打破数据间的时间相关性提高学习的稳定性和效率。 目标网络DQN使用了两个网络一个用于估计当前的Q值在线网络另一个用于生成目标Q值目标网络。这种分离有助于稳定训练过程因为它减少了目标值随学习过程快速变化的问题。 伪代码 initialize replay memory D initialize action-value function Q with random weights for episode 1, M doinitialize state sfor t 1, T doselect action a with ε-greedy policy based on Qexecute action a, observe reward r and new state sstore transition (s, a, r, s) in Dsample random minibatch from Dcalculate target for each minibatch sampleupdate Q using gradient descentend for end for应用范围 适用于具有高维状态空间和离散动作空间的问题。常用于游戏和模拟环境。 Double DQN 说明 主要解决了DQN在估计Q值时的过高估计overestimation问题。在传统的DQN中选择和评估动作的Q值使用相同的网络这可能导致在某些状态下对某些动作的Q值被高估从而影响学习的稳定性和最终策略的质量。 Double DQN 通过使用两个不同的网络 QA 和 QB 来分别进行动作的选择和价值的估计进而减少了传统DQN可能导致的Q值过高估计问题。 具体来说动作选择是基于 QA 网络进行的而价值估计则是基于 QB网络。在更新 QA 的过程中使用 QB 来估计下一状态的价值但是每隔固定的时间步 QB 会被 QA 的权值更新从而实现两个网络的同步。这种方法提高了Q值估计的准确性从而可以在复杂的决策环境中提供更稳定和可靠的学习性能。 伪代码 # Same as DQN until the target calculation for each minibatch sample (s, a, r, s):if s is terminal:y relse:a argmax_a Q(s, a; θ) # action selection by Q-networky r γ * Q(s, a; θ) # target calculation by target networkupdate Q using gradient descent应用范围 减少估计偏差提高策略稳定性。 适用于需要精确动作价值估计的场景。 Dueling DQN 实现原理 Dueling DQN修改的是网络结构算法中在输出层之前分流 dueling 出了两个层如图所示一个是优势层用于估计每个动作带来的优势输出维度为动作数一个是价值层用于估计每个状态的价值输出维度为 1。 这种结构设计使得Dueling DQN在评估每个状态的价值时更加准确尤其是在那些动作选择不会极大影响环境的情况下。换句话说即使在状态的价值变化不大时Dueling DQN也能有效地学习到动作间的差异这对于在复杂策略空间中找到最优策略特别有用。 应用范围 Dueling DQN特别适合于那些状态值比动作选择本身更重要的场景例如在一些策略游戏或者决策问题中环境可能对特定动作不敏感比如不需要开火此时能够精确评估状态价值的Dueling DQN将非常有用。此外Dueling DQN也适用于需要从大量相似动作中做出选择的任务因为它能够更好地区分各个动作的微小差异。 伪代码 # Network architecture change for each minibatch sample (s, a, r, s):V V(s; θV) # State value functionA A(s, a; θA) # Advantage functionQ V (A - mean(A)) # Q value calculationupdate Q using gradient descentPer DQN (Prioritized Experience Replay DQN) Per DQN增强了基本DQN的经验回放机制通过优先级回放来指导学习过程。在传统的经验回放中训练样本是随机抽取的每个样本被重新使用的概率相同。然而并非所有的经验都同等重要。Per DQN通过计算时间差分误差Temporal Difference ErrorTD error为每个经验样本分配一个优先级优先级高的样本更有可能被抽取来进行学习。 时序差分误差TD error是实际奖励与当前Q值函数预测奖励之间的差异。较大的TD error意味着对应的经验可能会给我们的学习带来更多信息。优先级的设定在经验优先回放Prioritized Experience Replay中每个经验的优先级是根据其时序差分误差TD error的大小来设定的。TD error是实际奖励与估计奖励之间的差异它反映了当前策略预测的准确性。一个高TD error的经验表示当前策略有更大的学习潜力因此被赋予更高的优先级以便更频繁地从经验回放中被抽样学习。 应用范围 Per DQN适用于那些代理可以从特定经验中快速学习的场景。在复杂的环境中一些关键的决策点可能只出现几次传统的随机抽样可能会忽略这些经验。Per DQN确保这些有价值的经验能够被更频繁地回顾和学习从而加速学习过程有助于更快地收敛到一个好的策略。 伪代码 initialize priority replay memory D for each minibatch sample (s, a, r, s):calculate TD error: δ |r γ * max_a Q(s, a) - Q(s, a)|update priority of (s, a, r, s) in D based on δupdate Q using gradient descent缺陷直接使用TD误差作为优先级存在一些问题。首先考虑到算法效率问题我们在每次更新时不会把经验回放中的所有样本都计算TD误差并更新对应的优先级而是只更新当前取到的一定批量的样本。这样一来每次计算的TD误差是对应之前的网络而不是当前待更新的网络。 所以引入了额外的技巧随机采样和重要性采样。 NoisyDQN 增加噪声层炼丹的通用操作)提高模型泛化性避免陷入局部最优解。 伪代码 initialize Q network with noisy layers for each minibatch sample (s, a, r, s):select action a using Q with noiseexecute action a, observe r, sstore transition, sample minibatchupdate Q using gradient descent应用范围 适用于探索性任务和非稳态环境。动态调整探索策略适合于需要适应性探索的复杂场景。
http://www.hkea.cn/news/14538185/

相关文章:

  • 佛山专业网站建设公司做英文网站挂谷歌广告
  • 旅游网站开发实验报告wordpress 路径标签
  • 光速网络网站大型电子商务网站建设
  • 用vs做网页是怎么创建网站的国外精产品1688
  • 网站建设综合报告外包项目
  • wordpress 3.8.3 下载seo优化厂商
  • 宁波做公司网站的公司山西疾控最新通告今天
  • 系网站建设总结报告济南网站的建设
  • 怎么样自己创建网站设置网站默认编码
  • 网站首页策划怎么做顺德网站制作案例价位
  • 网站开发师培训要加强分院网站建设
  • 十大网站建设菠菜网站模板
  • 临海大经建设集团网站多层次网络营销合法吗
  • 网站设置默认主页做网站有没有免费空间
  • 域名只做邮箱没网站要备案吗flash网站下载
  • 徐州手机网站上海优秀网站设计
  • 建设银行官网站预约怎样做彩票投资网站
  • 怎样才可以知道网站是否优化网络推广文案案例
  • 网站管理系统 phpwordpress数据库容量
  • 兼职做视频的网站青岛企业自助建站系统
  • 旅游网站排行榜前十名官网wordpress支付功能
  • 上海建站网站的企业腾讯网站建设方案
  • 网站建设免费教程h5制作网站开发
  • 百度联盟 网站备案信息wordpress根目录
  • 西安网站排名哪家公司好网站开发学习网站
  • 莆田网站关键词优化wordpress 交友模板
  • 网站多少图片怎么做超链接翠竹林 wordpress
  • 建网站wordpress观音桥网站建设网站建设
  • 凡科建站如何制作论坛wordpress 多媒体播放
  • 做外快的网站服务器做ssr后还可以做网站吗