当前位置: 首页 > news >正文

公司做网站做什么类型的网站好建立起以什么会晤机制为引领

公司做网站做什么类型的网站好,建立起以什么会晤机制为引领,wordpress comments,一个网站想看访客量怎么做ICLR 2022 Poster Intro 部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作#xff0c;这就容易导致采取了OOD的数据。因此#xff0c;IQL取消max,#xff0c;通过一个期望回归算子…ICLR 2022 Poster Intro 部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作这就容易导致采取了OOD的数据。因此IQL取消max,通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。 method 期望回归(Expectile Regression) arg ⁡ min ⁡ m τ E x ∼ X [ L 2 τ ( x − m τ ) ] , \arg\min_{m_\tau}\mathbb{E}_{x\sim X}[L_2^\tau(x-m_\tau)], argmτ​min​Ex∼X​[L2τ​(x−mτ​)], 其中 L 2 τ ( u ) ∣ τ − 1 ( u 0 ) ∣ u 2 . L_2^\tau(u)|\tau-\mathbb{1}(u0)|u^2. L2τ​(u)∣τ−1(u0)∣u2. 函数如下所示 最右边的图可以看出越大的 τ \tau τ使得预测值逼近上界。 IQL IQL将上述的 L 2 τ L_2^{\tau} L2τ​替换掉MSE来优化Q L ( θ ) E ( s , a , s ′ , a ′ ) ∼ D [ L 2 τ ( r ( s , a ) γ Q θ ^ ( s ′ , a ′ ) − Q θ ( s , a ) ) ] . L(\theta)\mathbb{E}_{(s,a,s,a)\sim\mathcal{D}}[L_2^\tau(r(s,a)\gamma Q_{\hat{\theta}}(s,a)-Q_\theta(s,a))]. L(θ)E(s,a,s′,a′)∼D​[L2τ​(r(s,a)γQθ^​(s′,a′)−Qθ​(s,a))]. 然而上式存在一个问题。 Q θ ^ Q_{\hat{\theta}} Qθ^​中采样的下一个动作具有一定的随机性即使由较大的target Q也无法代表这是一个最优动作。因此这里来利用状态价值函数去并逼近这个Q: L V ( ψ ) E ( s , a ) ∼ D [ L 2 τ ( Q θ ^ ( s , a ) − V ψ ( s ) ) ] . L_V(\psi)\mathbb{E}_{(s,a)\sim\mathcal{D}}[L_2^\tau(Q_{\hat{\theta}}(s,a)-V_\psi(s))]. LV​(ψ)E(s,a)∼D​[L2τ​(Qθ^​(s,a)−Vψ​(s))]. 采用均值就有效增加鲁棒性。而得到 V 后将通过MSE来优化Q网络 L Q ( θ ) E ( s , a , s ′ ) ∼ D [ ( r ( s , a ) γ V ψ ( s ′ ) − Q θ ( s , a ) ) 2 ] . L_Q(\theta)\mathbb{E}_{(s,a,s)\sim\mathcal{D}}[(r(s,a)\gamma V_\psi(s)-Q_\theta(s,a))^2]. LQ​(θ)E(s,a,s′)∼D​[(r(s,a)γVψ​(s′)−Qθ​(s,a))2]. AWR 价值函数完成优化后便是优化策略。这里采用的是AWR方法 L π ( ϕ ) E ( s , a ) ∼ D [ exp ⁡ ( β ( Q θ ^ ( s , a ) − V ψ ( s ) ) ) log ⁡ π ϕ ( a ∣ s ) ] L_\pi(\phi)\mathbb{E}_{(s,a)\sim\mathcal{D}}[\exp(\beta(Q_{\hat{\theta}}(s,a)-V_\psi(s)))\log\pi_\phi(a|s)] Lπ​(ϕ)E(s,a)∼D​[exp(β(Qθ^​(s,a)−Vψ​(s)))logπϕ​(a∣s)]
http://www.hkea.cn/news/14338482/

相关文章:

  • 做的好微信商城网站吗面试网站建设需要的简历
  • 建立自己的网站有什么用深圳网站设计排名
  • 长沙哪里可以做网站官方网站面膜做代理
  • 华为网站建站北京网站手机站建设公司电话
  • 响应式网站设计的要求如何弄小程序
  • 统计后台网站有哪些郑州网站推广价格信息
  • 学做文案的网站从化做网站
  • 做网站的计划书互联网信息服务许可证
  • 做外贸怎样免费登录外国网站友情链接收录
  • 教育类网站建设策划书国内seo工具
  • 设备免费做网站推广智联招聘网站怎么做两份简历模板
  • 融资融券配资网站建设网站开发前期功能策划
  • 网站建设如何创业刚做的网站怎么搜索不出来
  • 淄博网站建设推广优化万户网络公司如何
  • 网站平台设计企业公示信息查询系统江西
  • 东莞网站建设公司辉煌大厦南京高固建设公司
  • 低代码建站平台付费小说网站怎么做
  • 简洁大气企业网站源码网络软文广告
  • 长春网站建设首选网诚传媒_国外设计网站排名
  • 怎么做微信领券网站在网站建设中遇到的问题
  • 镇江网站排名优化价格网站开发可选择的方案有
  • 星夜智能建站平台河南建设工程信息网官方网站
  • 德州市建设小学网站网站区域名是什么意思
  • 微软的网站开发软件网站空间管理权限
  • php网站开发工程师招聘网郑州市做网站的公司
  • 怎样搜网站工作组赴哈尔滨
  • 网站名称和备案公司名称不一样全国信用信息公示系统官网
  • 东直门小学的网站建设在线开发app
  • 网站系统管理员湖州医院网站建设方案
  • 新网站建设需要什么网站制作多少钱一个月