两学一做网站链接,做网站备案必须是个人还是公司,烟台网站建设企业,做展示网站步骤2024/6/23#xff1a; 前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。 浅谈主要区别#xff08;在线 or 离线#xff09; 首先#xff0c;一切的开始是强化学习中时序差分方程#xff0c;这体现了强化学习方法的优化策略。在… 2024/6/23 前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。 浅谈主要区别在线 or 离线 首先一切的开始是强化学习中时序差分方程这体现了强化学习方法的优化策略。在看方程之前先要理解Q值的概念——即当前状态S下采取动作A继续下去能够得到的最佳收益。 该方程通过Target值采取当前动作后得到的奖励 采取动作后下一个状态根据某个策略选取动作的Q值减去估计值当前估计的当前状态采取A的Q值再乘上一个类似于学习率的量来更新当前估计的当前状态的Q值而方程的目的就是来逼近真正的最佳收益。可能有点绕但是从类似于动态规划的角度看会明白一点。 下面是on-policy和off-policy策略的区别 这两种策略本质上的区别是他们的时序差分方程如下图所示上面的target属于on-policy方法下面的属于off-policy方法 on-policy主要应用于Sarsa方法是一种在线的交互式的学习方法大概就像是。采取这种策略的方法通过当前状态下选取的一定会执行的action来优化自身的Q表格。action的选取可以通过随机选取也可以根据贪婪策略选取然后根据这个选取的action计算得到的结果来更新Q表格。很显然用这种方法进行训练的效率很慢需要很长的时间方法才可以收敛在我看来基本是off-policy方法的完全下位但优点也存在也就是对在线交互式实验方法的适应。 从时序差分方程的角度看下面这张图将其中的内容和方程中的联系起来看就能大概理解sarsa做了什么 off-policy是一种更加常用的方法Q-learning和DQN都属于这一类的方法。从方程中获取target值的区别就可以看到他使用下个状态的采取所有动作的最佳Q值来优化因此收敛也更快。
参考在线/离线策略区别
面向新手从零学习强化学习