当前位置: 首页 > news >正文

哪个网站的字体做的特别好珠海市城市建设档案馆网站

哪个网站的字体做的特别好,珠海市城市建设档案馆网站,wordpress支付宝个人,家政网站建设CoRL 2023 Oral paper code Intro 算法基于TD-MPC#xff0c;利用离线数据训练世界模型#xff0c;然后在线融合基于集成Q的不确定性估计实现Planning。得到的在线数据将联合离线数据共同训练目标策略。 Method TD-MPC TD-MPC由五部分构成: 状态特征提取 z h θ ( s ) …CoRL 2023 Oral paper code Intro 算法基于TD-MPC利用离线数据训练世界模型然后在线融合基于集成Q的不确定性估计实现Planning。得到的在线数据将联合离线数据共同训练目标策略。 Method TD-MPC TD-MPC由五部分构成: 状态特征提取 z h θ ( s ) z h_\theta(s) zhθ​(s)隐动力学模型 z ′ ‘ d θ ( z , a ) zd_\theta(z,a) z′‘dθ​(z,a)奖励模型 r ^ R θ ( z , a ) \hat{r}R_\theta(z,a) r^Rθ​(z,a)planning policy a ^ π θ ( z ) \hat{a}\pi_\theta(z) a^πθ​(z)终止状态下的 q ^ Q θ ( z , a ) \hat{q}Q_\theta(z,a) q^​Qθ​(z,a) 通过联合训练进行优化损失函数为 L ( θ ) E ( s , a , r , s ′ ) 0 : h ∼ B ⌊ ∑ t 0 h ( ∥ z t ′ − s g ( h ϕ ( s t ′ ) ) ∥ 2 2 ⏟ Latent dynamics ∥ r ^ t − r t ∥ 2 2 ⏟ Reward ∥ q ^ t − q t ∥ 2 2 ⏟ Value − Q θ ( z t , a ^ t ) ⏟ Action ) ⌋ ( 1 ) \mathcal{L}(\theta)\mathbb{E}_{(\mathbf{s},\mathbf{a},r,\mathbf{s}^{\prime})_{0:h}\sim\mathcal{B}}\left\lfloor\sum_{t0}^{h}\left(\underbrace{\|\mathbf{z}_{t}^{\prime}-\mathrm{sg}(h_{\phi}(\mathbf{s}_{t}^{\prime}))\|_{2}^{2}}_{\text{Latent dynamics}}\underbrace{\|\hat{r}_{t}-r_{t}\|_{2}^{2}}_{\text{Reward}}\underbrace{\|\hat{q}_{t}-q_{t}\|_{2}^{2}}_{\text{Value}}-\underbrace{Q_{\theta}(\mathbf{z}_{t},\hat{\mathbf{a}}_{t})}_{\text{Action}}\right)\right\rfloor(1) L(θ)E(s,a,r,s′)0:h​∼B​ ​t0∑h​ ​Latent dynamics ∥zt′​−sg(hϕ​(st′​))∥22​​​Reward ∥r^t​−rt​∥22​​​Value ∥q^​t​−qt​∥22​​​−Action Qθ​(zt​,a^t​)​​ ​ ​(1) 在Offline 设定下分布偏移将导致Q估计以及隐模型以及价值函数的错误估计。启发于IQL通过只对in-sample的动作尽心TD-backups来估计缓解过估计问题。因此对模型价值函数利用离线数据进行训练时此时Q函数采用IQL中的期望回归方法优化 L V ( θ ) ∣ τ − 1 { Q ϕ ( z t , a t ) − V θ ( z t ) 0 } ∣ ( Q ϕ ( z t , a t ) − V θ ( z t ) ) 2 , \mathcal{L}_{V}(\theta)|\tau-1_{\{Q_{\phi}(\mathbf{z}_{t},\mathbf{a}_{t})-V_{\theta}(\mathbf{z}_{t})0\}}|(Q_{\phi}(\mathbf{z}_{t},\mathbf{a}_{t})-V_{\theta}(\mathbf{z}_{t}))^{2}, LV​(θ)∣τ−1{Qϕ​(zt​,at​)−Vθ​(zt​)0}​∣(Qϕ​(zt​,at​)−Vθ​(zt​))2, 同时对planning policy采用AWR的更新即 exp ⁡ ( β ( Q ϕ ( z t , a t ) − V θ ( z t ^ ) ) ) log ⁡ π θ ( a t ∣ z t ) \exp(\beta(Q_\phi(\mathbf{z}_t,\mathbf{a}_t)-V_\theta(\hat{\mathbf{z}_t})))\log\pi_\theta(\mathbf{a}_t|\mathbf{z}_t) exp(β(Qϕ​(zt​,at​)−Vθ​(zt​^​)))logπθ​(at​∣zt​) Uncertainty Estimation as Test-Time Behavior Regularizatio 离线训练的模型依旧存在OOD数据过估计需要在线微调。文章提出基于不确定性估计的planning实现在线交互过程中的动作选择。planning一定程度缓解基于约束的离线算法导致的在现阶段探索能力不足。进而导致算法样本效率低的问题。 首先构建集成Q函数模型计算基于标准差的不确信度作为惩罚项对奖励进行调整实现保守的在线planning。 R ^ γ h ( Q θ ( z h , a h ) − λ u h ) ∑ t 0 h − 1 γ t ( R θ ( z t , a t ) − λ u t ) , u t s t d ( { Q θ ( i ) ( z t , a t ) } i 1 N ) \hat{\mathcal{R}}\gamma^{h}\left(Q_{\theta}(\mathbf{z}_{h},\mathbf{a}_{h})-\lambda u_{h}\right)\sum_{t0}^{h-1}\gamma^{t}\left(R_{\theta}(\mathbf{z}_{t},\mathbf{a}_{t})-\lambda u_{t}\right),\quad u_{t}\mathrm{std}\left(\{Q_{\theta}^{(i)}(\mathbf{z}_{t},\mathbf{a}_{t})\}_{i1}^{N}\right) R^γh(Qθ​(zh​,ah​)−λuh​)t0∑h−1​γt(Rθ​(zt​,at​)−λut​),ut​std({Qθ(i)​(zt​,at​)}i1N​) 除此外还维护两个buffer分别存储离线数据于在线数据通过balance sampling数据训练模型、策略以及价值函数。 结果
http://www.hkea.cn/news/14484588/

相关文章:

  • 太平洋手机官方网站vc6.0做网站
  • 免费seo网站自动推广软件wordpress html 过滤
  • 沈阳工伤保险做实网站网站特点
  • 网站空间建设业余做衣服的网站
  • 中文设计网站erp管理系统多少钱
  • 网吧网站怎么做站长工具5118
  • 做网站编辑好吗手机网站优化
  • 做国外网站调查挣取零花钱腾讯 网站建设
  • 网站源码在哪看茂名网站建设托管
  • 温州网站建设开发阿里云搜索引擎
  • 网站模板 单页软件毕设代做网站
  • 牛什么网站建设用word做旅游网站
  • 做自己个人网站网站建设丿金手指下拉9
  • wordpress模版建站表白网站
  • 低价网站空间岳阳网站建设制作
  • 网站代备案多少钱遵义网站建设遵义
  • 学习前端的网站商城小程序定制公司
  • .net网站开发面试东莞做网站多少钱
  • 温州建设小学的网站前端开发网页设计
  • 哪个网站可以做社工试题网站如何做内链
  • 遂宁公司做网站安康市教育云平台
  • 做个电商网站多少钱免费网站制作软件的app
  • 台州做网站多少钱全国 网站备案 数量
  • 北京做网站的公司排行wordpress 无所不能
  • WordPress博客文件网站seo优化很好徐州百都网络点赞
  • 做标书经验分享网站编程课程培训机构排名
  • 西安建站软件互联网平台名称设计图
  • 做企业网站的公司网站建设谢辞
  • 做直播网站有市场吗wordpress主题注册页美化
  • 做网站年薪百万微信小程序如何推广