当前位置: 首页 > news >正文

遂宁网站开发悟空crm免费开源版

遂宁网站开发,悟空crm免费开源版,做电影网站都需要什么手续,虚拟机下载TOC 1 前言2 方法2.1 LOW-RANK-PARAMETRIZED UPDATE MATRICES 1 前言 1) 提出背景 大模型时代#xff0c;通常参数都是上亿级别的#xff0c;若对于每个具体任务都要去对大模型进行全局微调#xff0c;那么算力和资源的浪费是巨大的。 根据流形学习思想#xff0c;对于数… TOC 1 前言2 方法2.1 LOW-RANK-PARAMETRIZED UPDATE MATRICES 1 前言 1) 提出背景 大模型时代通常参数都是上亿级别的若对于每个具体任务都要去对大模型进行全局微调那么算力和资源的浪费是巨大的。 根据流形学习思想对于数据有用的特征通常集中于低维流形区域。我们想去微调实际上只是让部分特征的权值更大而已而这部分特征也是低维的我们没有必要小题大做将整个模型的参数都动一遍。 鉴于此思想提出了LoRALow - Rank Adaptation), 既冻结住预训练好的大模型插入可训练低维压缩矩阵到每一层本文是插入到transformer层。我们仅仅去微调插入的可学习矩阵这样既可以显著降低需要微调的参数量同时也不会增加额外的推理时间。 2 方法 2.1 LOW-RANK-PARAMETRIZED UPDATE MATRICES 对于整个预训练大模型可以看作是 W 0 d × k W_0^{d\times k} W0d×k​既输入是一个 d d d维tensor输出一个 k k k维tensor对于新增的矩阵 A d × r A^{d\times r} Ad×r B r × k B^{r\times k} Br×k 其中 r r r就是low rank r m i n ( d , k ) rmin(d,k) rmin(d,k)。那么对于low rank matric可以将整个视为 Δ W d × k \Delta W^{d\times k} ΔWd×k预训练模型的基础上加上LoRa的模型可以视为 W W 0 Δ W WW_0\Delta W WW0​ΔW,最终输出维 h ( W 0 Δ W ) x h(W_0\Delta W)x h(W0​ΔW)x其中对于 A A A用随机高斯噪声去初始化对于 B B B将其设置为全0这样做在刚开始的时候也就不会对模型输出有啥影响避免减少引入不必要的噪声一开始随机初始化的值都是噪声 LoRa还有如下优点 通过如此微调可以近似是在微调整个预训练大模型减小了微调的参数量没有增加额外的推理时间由上面可以看到并没有啥额外的串行操作并且可以将 W W W减去 Δ W 1 \Delta W_1 ΔW1​在重新训练一个 Δ W 2 \Delta W_2 ΔW2​在进行相加就可以得到新的微调模型方便快捷。
http://www.hkea.cn/news/14518168/

相关文章:

  • 昆明网站建设公司推荐seo网络推广优势
  • 建设防伪网站电商模式
  • net网站开发 介绍房地产网络营销方案
  • 服装网站建设策划书的基本结构做行业门户网站注意什么
  • 绍兴大明电力建设有限公司网站网站1g的空间能用多久
  • 山西本土网站建设哪个网站上做ppt比较好看
  • 公司网站建设图片素材怎么找又拍网站怎么做的
  • 网站查询域名域名跟空间都有了怎么做网站
  • 寻找网络公司做公司网站升级改版自己做网站难不难
  • 网站怎么做根目录青岛茶叶网站建设
  • 制作网站什么制作软件高端网站设计技术分析
  • 做电商设计在哪个网站接单网站与建设实训报告
  • 下载站cmswordpress site
  • 9377将军seo代码优化
  • 建设银行网站网址是什么微信群二维码推广平台
  • 网站怎么做外链知乎简约网站版式
  • 江苏炒股配资网站开发小程序开发平台好的有哪些
  • 石排东莞网站建设企业服务局
  • 百度云建站网站建设论坛网站地图怎么做
  • 网站开发运行环境论文王烨名字打分
  • 宁波网站推广平台推荐企业网站备案需要多久
  • 网站ip地址查询域名wordpress表单邮件回复
  • 共和县公司网站建设it培训机构推荐
  • 网站开发和商城的科目软件商城app下载
  • 关于微网站策划ppt怎么做河南省 门户网站建设要求
  • 南昌做网站电话企业网站建公司
  • 自己电脑做网站教程番禺网站公司
  • 三统文化传播网站阿里巴巴做网站费用
  • 婚恋网站系统保定seo企业网站
  • 网站左侧浮动代码新东方在线网上课程