网站建设是设,教学网站在线自测功能怎么做,报社网站开发做什么,我的世界做头像的网站这篇文章是对dreamer系列的改进#xff0c;是一篇world model 的论文改进点在于#xff0c;dreamer用的是循环神经网络#xff0c;本文想把它改成transformer#xff0c;并且希望能利用transformer实现并行训练。改成transformer的话有个地方要改掉#xff0c;dreamer用ht…
这篇文章是对dreamer系列的改进是一篇world model 的论文改进点在于dreamer用的是循环神经网络本文想把它改成transformer并且希望能利用transformer实现并行训练。改成transformer的话有个地方要改掉dreamer用ht和xt来预测zt但transformer要实现并行训练的话最好是不要有ht因为ht依赖transformer来预测而transformer又需要zt作为输入形成循环依赖就只能一步一步地生成。为此把zt的预测改成只依赖于xt。如下所示 policy model的输入是ht和zt的concatenate