当前位置: 首页 > news >正文

小城市做网站做网站要固定电话

小城市做网站,做网站要固定电话,网站集群系统建设,办办网登陆2024/6/23#xff1a; 前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。 浅谈主要区别#xff08;在线 or 离线#xff09; 首先#xff0c;一切的开始是强化学习中时序差分方程#xff0c;这体现了强化学习方法的优化策略。在… 2024/6/23         前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。 浅谈主要区别在线 or 离线 首先一切的开始是强化学习中时序差分方程这体现了强化学习方法的优化策略。在看方程之前先要理解Q值的概念——即当前状态S下采取动作A继续下去能够得到的最佳收益。 该方程通过Target值采取当前动作后得到的奖励 采取动作后下一个状态根据某个策略选取动作的Q值减去估计值当前估计的当前状态采取A的Q值再乘上一个类似于学习率的量来更新当前估计的当前状态的Q值而方程的目的就是来逼近真正的最佳收益。可能有点绕但是从类似于动态规划的角度看会明白一点。 下面是on-policy和off-policy策略的区别 这两种策略本质上的区别是他们的时序差分方程如下图所示上面的target属于on-policy方法下面的属于off-policy方法 on-policy主要应用于Sarsa方法是一种在线的交互式的学习方法大概就像是。采取这种策略的方法通过当前状态下选取的一定会执行的action来优化自身的Q表格。action的选取可以通过随机选取也可以根据贪婪策略选取然后根据这个选取的action计算得到的结果来更新Q表格。很显然用这种方法进行训练的效率很慢需要很长的时间方法才可以收敛在我看来基本是off-policy方法的完全下位但优点也存在也就是对在线交互式实验方法的适应。 从时序差分方程的角度看下面这张图将其中的内容和方程中的联系起来看就能大概理解sarsa做了什么 off-policy是一种更加常用的方法Q-learning和DQN都属于这一类的方法。从方程中获取target值的区别就可以看到他使用下个状态的采取所有动作的最佳Q值来优化因此收敛也更快。 参考在线/离线策略区别 面向新手从零学习强化学习
http://www.hkea.cn/news/14401813/

相关文章:

  • 做设计应该看哪些网站微网站自助建站后台
  • 在网站中加入锚链接应该怎么做学做婴儿衣服网站
  • 游戏推广渠道泉州seo网站关键词优推广
  • 网站设计过时2018年网站开发技术
  • 手机网站制作明细报价表深圳企业网站建设制作公司
  • 怎么对网站的数据库做管理佛山市seo推广哪家好
  • 如何做自己的电影网站wordpress建什么站
  • 烟台专业做网站中国建设教育协会网站打不开
  • 郑州建站软件女生读网络营销与电商直播
  • 出售家教网站模板做卷皮网类似网站
  • 为什么网站不需要icp备案青海项目信息网
  • 泉州找工作网站网站举报中心官网
  • 舞阳网站建设百度推广登录后台
  • 买模板做的网站表单数据在哪里看锦州市做网站
  • 企业网站建设规范响应式培训网站模板
  • 房产信息门户网站建设方案石家庄造价信息网官网
  • 中国建设银行网站怎么改支付密码是什么怎么才能制作网站呢
  • 凡科网站建设推广支持wordpress的mysql
  • 南充网站建设狐灵网络百度网站建设推广
  • 365做网站热烈祝贺网站上线
  • 中高端社交网站建设服务商淄博中企动力公司网站
  • 网站建设前十名养育成本
  • 杭州 网站定制网站左侧广告代码
  • 网站关键词优化的方法网站源码下载视频
  • 怎样建淘宝客网站网站建设所有软件清单
  • 站长之家是什么全景效果图网站
  • 网站后台地址忘记了广西百色公司注册
  • 商业网站建设案例视频如何制作活动宣传网页
  • 晋江网站建设公司wordpress企业主题制作
  • 北京西站地铁几号线网页版传奇哪个好玩