当前位置：首页 > news >正文

wordpress 适合外贸站客户关系管理案例经典

news 2026/5/1 17:19:05

wordpress 适合外贸站,客户关系管理案例经典,长沙企业网站建设企业,wordpress wp-postviews插件分类目录#xff1a;《深入理解强化学习》总目录学习学习#xff08;Learning#xff09;和规划#xff08;Planning#xff09;是序列决策的两个基本问题。如下图所示#xff0c;在强化学习中#xff0c;环境初始时是未知的#xff0c;智能体不知道环境如何工作《深入理解强化学习》总目录学习学习Learning和规划Planning是序列决策的两个基本问题。如下图所示在强化学习中环境初始时是未知的智能体不知道环境如何工作它通过不断地与环境交互逐渐改进策略。规划如下图图所示在规划中环境是已知的智能体被告知了整个环境的运作规则的详细信息。智能体能够计算出一个完美的模型并且在不需要与环境进行任何交互的时候进行计算。智能体不需要实时地与环境交互就能知道未来环境只需要知道当前的状态就能够开始思考来寻找最优解。在下图所示的游戏中规则是确定的我们知道选择左之后环境将会产生什么变化。我们完全可以通过已知的规则来在内部模拟整个决策过程无需与环境交互。一个常用的强化学习问题解决思路是先学习环境如何工作也就是了解环境工作的方式即学习得到一个模型然后利用这个模型进行规划。探索和利用在强化学习里面探索和利用是两个很核心的问题。探索即我们去探索环境通过尝试不同的动作来得到最佳的策略带来最大奖励的策略。利用即我们不去尝试新的动作而是采取已知的可以带来很大奖励的动作。在刚开始的时候强化学习智能体不知道它采取了某个动作后会发生什么所以它只能通过试错去探索所以探索就是通过试错来理解采取的动作到底可不可以带来好的奖励。利用是指我们直接采取已知的可以带来很好奖励的动作。所以这里就面临一个权衡问题即怎么通过牺牲一些短期的奖励来理解动作从而学习到更好的策略。下面举一些探索和利用的例子。以选择餐馆为例利用是指我们直接去我们最喜欢的餐馆因为我们去过这个餐馆很多次了所以我们知道这里面的菜都非常可口。探索是指我们用手机搜索一个新的餐馆然后去尝试它的菜到底好不好吃。我们有可能对这个新的餐馆感到非常不满意这样钱就浪费了。以做广告为例利用是指我们直接采取最优的广告策略。探索是指我们换一种广告策略看看这个新的广告策略可不可以得到更好的效果。以挖油为例利用是指我们直接在已知的地方挖油这样可以确保挖到油。探索是指我们在一个新的地方挖油这样就有很大的概率可能不能发现油田但也可能有比较小的概率可以发现一个非常大的油田。以玩游戏为例利用是指我们总是采取某一种策略。比如我们玩《街头霸王》游戏的时候采取的策略可能是蹲在角落然后一直出脚。这个策略很可能可以奏效但可能遇到特定的对手就会失效。探索是指我们可能尝试一些新的招式有可能我们会放出“大招”来这样就可能“一招毙命”。与监督学习任务不同强化学习任务的最终奖励在多步动作之后才能观察到这里我们不妨先考虑比较简单的情形最大化单步奖励即仅考虑一步动作。需注意的是即便在这样的简单情形下强化学习仍与监督学习有显著不同因为智能体需通过试错来发现各个动作产生的结果而没有训练数据告诉智能体应当采取哪个动作。想要最大化单步奖励需考虑两个方面一是需知道每个动作带来的奖励二是要执行奖励最大的动作。若每个动作对应的奖励是一个确定值那么尝试遍所有的动作便能找出奖励最大的动作。然而更一般的情形是一个动作的奖励值是来自一个概率分布仅通过一次尝试并不能确切地获得平均奖励值。实际上单步强化学习任务对应于一个理论模型即K-臂赌博机K-armed Bandit。 K-臂赌博机也被称为多臂赌博机Multi-armed BanditMAB 。如下图所示K-臂赌博机有K个摇臂赌徒在投入一个硬币后可选择按下其中一个摇臂每个摇臂以一定的概率吐出硬币但这个概率赌徒并不知道。赌徒的目标是通过一定的策略最大化自己的奖励即获得最多的硬币。若仅为获知每个摇臂的期望奖励则可采用仅探索Exploration-only法将所有的尝试机会平均分配给每个摇臂即轮流按下每个摇臂最后以每个摇臂各自的平均吐币概率作为其奖励期望的近似估计。若仅为执行奖励最大的动作则可采用仅利用Exploitation-only法按下目前最优的即到目前为止平均奖励最大的摇臂若有多个摇臂同为最优则从中随机选取一个。显然仅探索法能很好地估计每个摇臂的奖励却会失去很多选择最优摇臂的机会仅利用法则相反它没有很好地估计摇臂期望奖励很可能经常选不到最优摇臂。因此这两种方法都难以使最终的累积奖励最大化。事实上探索估计摇臂的优劣和利用选择当前最优摇臂)这两者是矛盾的因为尝试次数总投币数有限加强了一方则自然会削弱另一方这就是强化学习所面临的探索-利用窘境Exploration-Exploitation Dilemma。显然想要累积奖励最大则必须在探索与利用之间达成较好的折中。参考文献 [1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022. [2] Richard S. Sutton, Andrew G. Barto. 强化学习第2版[M]. 电子工业出版社, 2019 [3] Maxim Lapan. 深度强化学习实践原书第2版[M]. 北京华章图文信息有限公司, 2021 [4] 王琦, 杨毅远, 江季. Easy RL强化学习教程 [M]. 人民邮电出版社, 2022

查看全文

http://www.hkea.cn/news/14490903/