当前位置: 首页 > news >正文

高端网站制作网站建设广州建网站维护公司

高端网站制作网站建设,广州建网站维护公司,网站建设要不要监理,网站软文得特点策略梯度方法 数学背景 给定一个标量函数 J ( θ ) J\left(\theta\right) J(θ)#xff0c;利用梯度上升法#xff0c;使其最大化#xff0c;此时的 π θ \pi_\theta πθ​就是最优策略。 θ t 1 θ t α ∇ θ J ( θ t ) \theta_{t1}\theta_t\alpha \nabla_\theta…策略梯度方法 数学背景 给定一个标量函数 J ( θ ) J\left(\theta\right) J(θ)利用梯度上升法使其最大化此时的 π θ \pi_\theta πθ​就是最优策略。 θ t 1 θ t α ∇ θ J ( θ t ) \theta_{t1}\theta_t\alpha \nabla_\theta J(\theta_t) θt1​θt​α∇θ​J(θt​) 标量函数 J ( θ ) J(\theta) J(θ) 就是上面提到的最优指标 J J J一般有以下几种定义 平均状态价值 v ˉ π ∑ s ∈ S d π ( s ) v π ( s ) E [ v π ( S ) ] \bar v_\pi \sum_{s\in\mathcal{S}}d_\pi(s)v_\pi(s) \mathbb{E}\left[ v_\pi(S) \right] vˉπ​s∈S∑​dπ​(s)vπ​(s)E[vπ​(S)] 如果 d d d与 π \pi π无关那么记 d π d 0 d_\pid_0 dπ​d0​就Grid World问题由于状态价值 v v v是回报的期望考虑两种具体情况 起始在随机位置均匀考虑每个状态价值 d 0 1 / ∣ S ∣ d_01/|\mathcal{S}| d0​1/∣S∣起始在固定位置只考虑 s 0 s_0 s0​状态价值即可 d 0 ( s 0 ) 1 , d 0 ( s ≠ s 0 ) d_0(s_0)1,\ d_0(s\neq s_0) d0​(s0​)1, d0​(ss0​) 如果 d d d与 π \pi π有关求解 d π T P π d π T d_\pi^TP_\pid_\pi^T dπT​Pπ​dπT​得到 d π d_\pi dπ​其中 P π P_\pi Pπ​是在策略 π \pi π下的状态转移矩阵。此时如果一个状态经常出现对应的 d ( s ) d(s) d(s)就会变大。 平均瞬时奖励 r ˉ π ∑ s ∈ S d π ( s ) r π ( s ) E [ r π ( S ) ] \bar r_\pi\sum_{s\in \mathcal{S}}d_\pi(s)r_\pi(s)\mathbb{E}\left[r_\pi(S)\right] rˉπ​s∈S∑​dπ​(s)rπ​(s)E[rπ​(S)] 其中 r π ( s ) r_\pi(s) rπ​(s)是agent在某状态按策略 π \pi π在动作空间中采取动作的瞬时奖励 r π ( s ) ∑ a ∈ A π ( s ∣ a ) r ( s , a ) r_\pi(s)\sum_{a\in \mathcal{A}}\pi(s\mid a)r(s,a) rπ​(s)a∈A∑​π(s∣a)r(s,a) 此定义与episode reward等价即当episode长度无限大时 s s s按 d π d_\pi dπ​分布即 lim ⁡ n → ∞ 1 n E [ ∑ k 1 n R t k ] ⟺ r ˉ π \lim_{n\to\infty}\frac{1}{n}\mathbb{E}[\sum_{k1}^{n}R_{tk}] \iff \bar r_\pi n→∞lim​n1​E[k1∑n​Rtk​]⟺rˉπ​ J ( θ ) J(\theta) J(θ)的梯度 上面两类指标函数的梯度都可以写成 ∇ θ J ( θ ) ∑ s ∈ S η ( s ) ∑ a ∈ A ∇ θ π ( a ∣ s , θ ) q π ( s , a ) ∑ s ∈ S η ( s ) ∑ a ∈ A π ( a ∣ s , θ ) ∇ θ log ⁡ π ( a ∣ s , θ ) q π ( s , a ) E [ ∇ θ log ⁡ π ( A ∣ S , θ ) q π ( S , A ) ] \begin{aligned} \nabla_\theta J(\theta) \sum_{s\in \mathcal{S}}\eta(s)\sum_{a\in \mathcal{A}} \nabla_\theta \pi(a|s,\theta)q_\pi(s,a)\\ \sum_{s\in \mathcal{S}}\eta(s)\sum_{a\in \mathcal{A}} \pi(a|s,\theta)\nabla_\theta \log\pi(a|s,\theta)q_\pi(s,a)\\ \mathbb{E}[\nabla_\theta \log\pi(A|S,\theta)q_\pi(S,A)] \end{aligned} ∇θ​J(θ)​s∈S∑​η(s)a∈A∑​∇θ​π(a∣s,θ)qπ​(s,a)s∈S∑​η(s)a∈A∑​π(a∣s,θ)∇θ​logπ(a∣s,θ)qπ​(s,a)E[∇θ​logπ(A∣S,θ)qπ​(S,A)]​ 其中 S ∼ η S\sim \eta S∼η A ∼ π ( a ∣ s , θ ) A\sim \pi(a|s,\theta) A∼π(a∣s,θ) 训练时使用随机近似的梯度 ∇ θ J ≈ ∇ θ log ⁡ π ( a ∣ s , θ ) q π ( s , a ) \nabla_\theta J\approx\nabla_\theta \log\pi(a|s,\theta)q_\pi(s,a) ∇θ​J≈∇θ​logπ(a∣s,θ)qπ​(s,a) REINFORCE伪代码
http://www.hkea.cn/news/14263133/

相关文章:

  • 网站设建设表单wordpress怎么使用自己的模板
  • 不会代码 怎么做网站济南网站开发公司
  • 海口制作手机网站vultr 搭建wordpress
  • 惠州开发做商城网站建设哪家好如何用dw做网站地图
  • dede本地搭建好网站后台密码和用户名是什么wordpress 内容采集
  • 深圳建网站服务wordpress文章首字下沉
  • 化妆品网站建设原因来宾市住房和城乡建设局网站
  • 影视传媒广告公司网站模板手机平台网站系统
  • 建设电子商务网站市场分析网站建设实训个人总结3000字
  • 室内设计案例去什么网站建立一个公司
  • 腾讯企业邮箱电脑版温州网站优化推广方案
  • 网站建设应该列入什么科目wordpress 显示全部分类
  • wap卖料建站系统六安政务中心网站
  • 网站开发保存学习进度的方案网站的根目录怎么找
  • 网站建设 中企动力福州阀门网站开发从入门到精通
  • 汕头教育学会网站建设威海建设信息网站
  • 贵州省网站建设中信建设有限责任公司工会
  • 怎么做淘宝联盟网站推广企业网站的建设流程包含哪些环节
  • 企业网页设计网站案例wordpress 问答 主题 knowhow
  • 怎么给公司做网站windows卸载wordpress
  • 自己做网站可以用私有云吗竞价托管优化公司
  • 广州天河区网站建设公司网站建设技术哪个好
  • 如何创办网站安康市滴滴公司地址
  • wordpress 站内搜索 慢官网浏览器
  • 手机报价网站大全2015网站排名
  • 建博客网站标记位置的地图微信小程序开发教程
  • 营销型网站建设的意义python做网站效率
  • 网站被黑是怎么回事开发一套电商网站多少钱
  • 英文网站怎么推广大数据培训
  • 临城企业做网站网站建设术语