当前位置: 首页 > news >正文

做电影网站犯罪吗淘宝seo软件

做电影网站犯罪吗,淘宝seo软件,用最少的钱做网站,wordpress 1.数据并行DP(朴素数据并行,Zero数据并行之后补充) O ( h 2 ∗ l ) O(h^2*l) O(h2∗l) 每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度,故一个batch计算发送的数据量为每层梯度大小 h 2 h^2 h2乘以层数 l l l 优点…

1.数据并行DP(朴素数据并行,Zero数据并行之后补充)

O ( h 2 ∗ l ) O(h^2*l) O(h2l)
每台机器做完自己的梯度后需要做一次All reduce操作来累积梯度,故一个batch计算发送的数据量为每层梯度大小 h 2 h^2 h2乘以层数 l l l

优点:运用简单,效率高,计算和通讯之间可以做异步。
缺点:有时候单个GPU无法容纳下整个大模型做训练。

流水线并行PP(Gpipe)

O ( b ∗ s ∗ h ∗ l / k ) O(b*s*h*l/k) O(bshl/k)
每个pp层之间发送中间变量大小(和输入x相同大小)为 b ∗ s ∗ h b*s*h bsh,乘以正向和反向一共要传递的次数 2 ∗ ( l / k − 1 ) 2*(l/k-1) 2(l/k1),得到上述大致的数量级

优点:通讯量小,数据无关。
缺点:要保证模型能均匀切分,否则会影响性能。需要用到重计算,来支持更大的批量 b b b,从而保证流水能发挥作用。反传之前需要等待所以微批量计算。

张量模型并行TMP

O ( b ∗ s ∗ h ∗ l ) O(b*s*h*l) O(bshl)
MLP层第一个W1纵向切,第二个W2横向切能保证一个MLP只做一次All reduce操作通讯。同理attn根据头数来切分投影层。两者每次的发送数据大小和PP一样都是 O ( b ∗ s ∗ h ) O(b*s*h) O(bsh),不同是,TMP发送量和模型Transformer层数成线性关系。

优点:能切分很大的Transformer模型。
缺点:通讯量大,且通信一般只在节点内部的多卡通讯,不做跨节点通讯。头数需要被GPU整除。

*一般而言 b ∗ s b*s bs略大于 h h h k k k l l l的1/10,故一般而言,通讯量TMP>DP>PP.在实际的工程中,一般TMP和PP都在节点内通讯,只有数据并行会做跨节点通讯。

http://www.hkea.cn/news/105392/

相关文章:

  • 万网速成网站有哪些 功能自己的网站怎么推广
  • 邯郸哪有做网站的河南百度推广公司
  • 我是做环保类产品注册哪些浏览量大的网站推销自己的产品比较好呢西安网站seo优化公司
  • 网页传奇游戏排行昆明网络推广优化
  • 商城模板网站模板网站软文是什么
  • 校园网站推广方案怎么做网站排名推广工具
  • 深圳罗湖企业网站建设报价网络媒体发稿平台
  • 用别人公司域名做网站线下推广的渠道和方法
  • php mysql的网站开发外贸推广平台
  • 济南网站建设认可搜点网络能百度指数有三个功能模块
  • 网上商城网站建设意义在线代理浏览网页
  • 网站图片切换代码百度下载并安装最新版
  • 微信公众平台号申请注册入口杭州seo公司
  • 本周实时热点新闻事件seo文章代写一篇多少钱
  • 旺店通app手机企业版下载网站seo如何优化
  • 宝山区建设用地事务所网站网络公司有哪些
  • 用sql做简单的博客网站大连谷歌seo
  • 新手怎么学做网站就业培训机构有哪些
  • magento网站建设搭建网站步骤
  • 营销网站如何实现差异化南京seo公司
  • 服务器托管是啥搜索引擎优化排名培训
  • 山西手机网站建设网址大全123
  • b2c平台有哪些平台网址新区seo整站优化公司
  • WordPress突然全站404网站如何添加友情链接
  • 复制别人网站做第一站seo短视频网页入口引流下载
  • 基层建设论文收录在哪个网站百度统计api
  • 购买主机可以做网站吗楚雄今日头条新闻
  • 深圳专业网站建设公司哪家好宁波网络营销公司
  • ps做电商网站流程图百度图片识别搜索引擎
  • 做电影网站程序好用武汉网站建设推广公司