当前位置：首页 > news >正文

德州市建设工程质量监督站网站wordpress带支付功能主题

news 2026/4/30 19:05:18

德州市建设工程质量监督站网站,wordpress带支付功能主题,手机体验网站,淮北做网站分类目录#xff1a;《深入理解强化学习》总目录根据智能体学习的事物不同#xff0c;我们可以把智能体进行归类。基于价值的智能体#xff08;Value-based agent#xff09;显式地学习价值函数#xff0c;隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。…分类目录《深入理解强化学习》总目录根据智能体学习的事物不同我们可以把智能体进行归类。基于价值的智能体Value-based agent显式地学习价值函数隐式地学习它的策略。策略是其从学到的价值函数里面推算出来的。基于策略的智能体Policy-based Agent直接学习策略我们给它一个状态它就会输出对应动作的概率。基于策略的智能体并没有学习价值函数。把基于价值的智能体和基于策略的智能体结合起来就有了Actor-Critic智能体Actor-Critic Agent。这一类智能体把策略和价值函数都学习了然后通过两者的交互得到最佳的动作。本文就将介绍有模型强化学习智能体和免模型强化学习智能体的区别。我们可以通过智能体到底有没有学习环境模型来对智能体进行分类。有模型Model-based强化学习智能体通过学习状态的转移来采取动作。免模型Model-free强化学习智能体没有去直接估计状态的转移也没有得到环境的具体转移变量它通过学习价值函数和策略函数进行决策。免模型强化学习智能体的模型里面没有环境转移的模型。我们可以用马尔可夫决策过程来定义强化学习任务并将其表示为四元组 S , A , P , R S, A, P, R S,A,P,R即状态集合、动作集合、状态转移函数和奖励函数。如果这个四元组中所有元素均已知且状态集合和动作集合在有限步数内是有限集则智能体可以对真实环境进行建模构建一个虚拟世界来模拟真实环境中的状态和交互反应。具体来说当智能体知道状态转移函数 P ( s t 1 ∣ s t , a t ) P(s_{t1}|s_t, a_t) P(st1∣st,at)和奖励函数 R ( s t , a t ) R(s_t, a_t) R(st,at)后它就能知道在某一状态下执行某一动作后能带来的奖励和环境的下一状态这样智能体就不需要在真实环境中采取动作直接在虚拟世界中学习和规划策略即可。这种学习方法称为有模型强化学习。有模型强化学习的流程如下图所示然而在实际应用中智能体并不是那么容易就能知道马尔可夫决策过程中的所有元素的。通常情况下状态转移函数和奖励函数很难估计甚至连环境中的状态都可能是未知的这时就需要采用免模型强化学习。免模型强化学习没有对真实环境进行建模智能体只能在真实环境中通过一定的策略来执行动作等待奖励和状态迁移然后根据这些反馈信息来更新动作策略这样反复迭代直到学习到最优策略。针对是否需要对真实环境建模强化学习可以分为有模型强化学习和免模型强化学习。有模型强化学习是指根据环境中的经验构建一个虚拟世界同时在真实环境和虚拟世界中学习免模型强化学习是指不对环境进行建模直接与真实环境进行交互来学习到最优策略。总之有模型强化学习相比免模型强化学习仅仅多出一个步骤即对真实环境进行建模。因此一些有模型的强化学习方法也可以在免模型的强化学习方法中使用。在实际应用中如果不清楚该用有模型强化学习还是免模型强化学习可以先思考在智能体执行动作前是否能对下一步的状态和奖励进行预测如果能就能够对环境进行建模从而采用有模型学习。免模型强化学习通常属于数据驱动型方法需要大量的采样来估计状态、动作及奖励函数从而优化动作策略。例如在雅达利平台上的《太空侵略者》游戏中免模型的深度强化学习需要大约两亿帧游戏画面才能学到比较理想的效果。相比之下有模型的深度强化学习可以在一定程度上缓解训练数据匮乏的问题因为智能体可以在虚拟世界中进行训练。免模型学习的泛化性要优于有模型强化学习原因是有模型强化学习算需要对真实环境进行建模并且虚拟世界与真实环境之间可能还有差异这限制了有模型强化学习算法的泛化性。有模型的强化学习方法可以对环境建模使得该类方法具有独特魅力即“想象能力”。在免模型强化学习中智能体只能一步一步地采取策略等待真实环境的反馈有模型强化学习可以在虚拟世界中预测出将要发生的事并采取对自己最有利的策略。目前大部分深度强化学习方法都采用了免模型强化学习这是因为免模型强化学习更为简单、直观且有丰富的开源资料如AlphaGo系列都采用免模型强化学习在目前的强化学习研究中大部分情况下环境都是静态的、可描述的智能体的状态是离散的、可观察的如雅达利游戏平台这种相对简单、确定的问题并不需要评估状态转移函数和奖励函数可直接采用免模型强化学习使用大量的样本进行训练就能获得较好的效果。如下图所示我们可以把几类模型放到同一个图里面。下图有3个组成成分价值函数、策略和模型。按一个智能体具有三者中的三者、两者或一者的情况可以把它分成很多类参考文献 [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022. [2] Richard S. Sutton, Andrew G. Barto. 强化学习第2版[M]. 电子工业出版社, 2019 [3] Maxim Lapan. 深度强化学习实践原书第2版[M]. 北京华章图文信息有限公司, 2021 [4] 王琦, 杨毅远, 江季. Easy RL强化学习教程 [M]. 人民邮电出版社, 2022

查看全文

http://www.hkea.cn/news/14478587/