当前位置: 首页 > news >正文

网站漂浮窗口代码太原市本地网站

网站漂浮窗口代码,太原市本地网站,网站后台管理系统 英文,海外广告联盟平台推广本文将介绍如下内容#xff1a; 什么是Lora高效微调的基本原理LORA的实现方式LORA为何有效#xff1f; 一、什么是LoRA LoRA 通常是指低秩分解#xff08;Low-Rank Decomposition#xff09;算法#xff0c;是一种低资源微调大模型方法#xff0c;论文如下: LoRA: Low…本文将介绍如下内容 什么是Lora高效微调的基本原理LORA的实现方式LORA为何有效 一、什么是LoRA LoRA 通常是指低秩分解Low-Rank Decomposition算法是一种低资源微调大模型方法论文如下: LoRA: Low-Rank Adaptation of Large Language Models。 使用LORA训练参数仅为整体参数的万分之一、GPU显存使用量减少2/3且不会引入额外的推理耗时。 二、高效微调的基本原理 以语言模型为例在微调过程中模型加载预训练参数 Φ 0 \Phi_0 Φ0​进行初始化,并通过最大化条件语言模型概率进行参数更新 Φ 0 \Phi_0 Φ0​ Δ Φ \Delta\Phi ΔΦ即 这种微调方式主要的缺点是我们学习到的参数增量 Δ Φ \Delta\Phi ΔΦ的维度和预训练参数 Φ 0 \Phi_0 Φ0​是一致的这种微调方式所需的资源很多一般被称为full fine-tuing。 研究者认为能用更少的参数表示上述要学习的参数增量 Δ Φ \Delta\Phi ΔΦ Δ Φ ( Θ ) \Delta\Phi(\Theta ) ΔΦ(Θ)其中 ∣ Θ ∣ |\Theta| ∣Θ∣ ∣ Φ 0 ∣ |\Phi_0| ∣Φ0​∣原先寻找 Δ Φ \Delta\Phi ΔΦ的优化目标变为寻找 Θ \Theta Θ 这种仅微调一部分参数的方法称为高效微调。针对高效微调研究者有很多的实现方式(如Adapter、prefixtuing等)。本文作者旨在使用一个低秩矩阵来编码 Δ Φ \Delta\Phi ΔΦ相比于其他方法LORA不会增加推理耗时且更便于优化。 三、LORA的实现方式 1、Instrisic Dimension 我们先思考两个问题为何用数千的样本就能将一个数十亿参数的模型微调得比较好为何大模型表现出很好的few-shot能力 Aghajanyan的研究表明预训练模型拥有极小的内在维度(instrisic dimension)即存在一个极低维度的参数微调它和在全参数空间中微调能起到相同的效果。 同时Aghajanyan发现在预训练后越大的模型有越小的内在维度这也解释了为何大模型都拥有很好的few-shot能力。 2、LORA 受instrisic dimension工作的启发作者认为参数更新过程中也存在一个‘内在秩’。对于预训练权重矩阵 W 0 W_0 W0​ ∈ \in ∈ R d ∗ k \mathbf{R^{d*k}} Rd∗k我们可以用一个低秩分解来表示参数更新 Δ W \Delta W ΔW即 训练过程中冻结参数 W 0 W_0 W0​仅训练A和B中的参数。如上图所示对于 h W 0 x hW_0 x hW0​x前向传播过程变为 四、LORA为何有效 通过大量的对比实验作者证明了LORA的有效性但是作者希望进一步解释这种从下游任务中学到的低秩适应(low-rank adaptation)的特性。为此作者提出了三个问题 1、LORA应该作用于Transformer的哪个参数矩阵 从上图我们可以看到 将所有微调参数都放到attention的某一个参数矩阵的效果并不好将可微调参数平均分配到 W q W_q Wq​和 W k W_k Wk​的效果最好。即使是秩仅取4也能在 Δ W \Delta W ΔW中获得足够的信息。 因此在实际操作中应当将可微调参数分配到多种类型权重矩阵中而不应该用更大的秩单独微调某种类型的权重矩阵。 2、LORA最优的秩r是多少 从上述实验结论我可以看到在秩小到1或者2的时候LORA的仍有不错的效果。因此作者假设:更新参数矩阵 Δ W \Delta W ΔW可能拥有极小的‘内在秩’。为求证此假设作者需要计算不同秩对应的子空间之间的重叠程度如下 对于 r 8 r8 r8 和 r 64 r64 r64 两个秩首先进行奇异值分解得到两个右奇异矩阵 U A r 8 U_{Ar8} UAr8​和 U A r 64 U_{Ar64} UAr64​。作者希望得到 U A r 8 U_{Ar8} UAr8​ 的top-i奇异向量有多少被包含在 U A r 64 U_{Ar64} UAr64​的top-j个向量中。可用格拉斯曼距离来表示这种子空间之间的相似关系 从上图可以看出 r 8 r8 r8和 r 64 r64 r64中的top奇异向量重叠得最多(颜色越小表示相似程度越高)也就是说top奇异向量的作用最大其他的奇异可能会引入更多的噪声。这证明了更新参数矩阵 Δ W \Delta W ΔW存在极小的‘内在秩’。 3、参数增量 Δ W \Delta W ΔW和 W W W的关系 为揭示微调过程的内在原理作者进行了如下实验 从上图的对比结果作者发现三个现象 相比于随机矩阵 Δ W \Delta W ΔW和 W W W有强关联。 从表中的 0.32 0.02 0.320.02 0.320.02可以看出。 Δ W \Delta W ΔW仅放大了 W W W中任务相关的特征 并未放大头部特征。我们知道F范数的平方等于奇异值和的平方因此从表中的 0.32 21.67 0.3221.67 0.3221.67可以看出 Δ W \Delta W ΔW和 W W W的头部奇异向量并无关联。r等于4时 Δ W \Delta W ΔW的放大系数已经很大了。 计算 6.91 / 0.32 ≈ 21.5 6.91/0.32 \approx21.5 6.91/0.32≈21.5可知 Δ W \Delta W ΔW能将 W W W 中相关的特征向量放大21.5倍。 因此我们可以得到结论在训练过程中低秩的适应矩阵 Δ W \Delta W ΔW仅仅放大了对下游任务有用的特征而不是预训练模型中的主要特征。 参考 LORA微调系列(一)LORA和它的基本原理
http://www.hkea.cn/news/14507091/

相关文章:

  • 百色网站建设淘宝有做网站吗
  • 网站开发协议合作wordpress 查询语句
  • wordpress面包屑文字大小如何调整黑帽seo工具
  • 网站中的ppt链接怎么做的哪个网站做调查问卷赚钱
  • 网站完成上线时间公司注册网站需要什么资料
  • dede移动端网站源码网站建设用几级域名合适
  • 做flash网站框架引擎wordpress配合七牛云
  • 建设工程管理网站遵义市营商环境建设局网站
  • 网站cms是什么wordpress 微语
  • ui设计做网站手机网站排名怎么做
  • 外贸网站图片素材用自己电脑做网站
  • amp网站建设公司网站设计 优帮云
  • 福建省网站建设方案书wordpress怎么删除某页页眉
  • php做的大型网站有哪些彩票网站开发多少钱
  • 全国最新网站备案查询哪个市文化和旅游网站做的好
  • 你们交学费做网站自己网页制作的目标和受众
  • 网站设计总结与心得体会江西网站建设费用
  • 本人承接网站建设建设网站上传代码
  • 做网站需要字体授权文登网站建设
  • 韩国平面设计网站微信小程序注册需要钱吗
  • 南通建公司网站注册一个公司需要哪些手续
  • 郑州知名网站建设公司做外贸企业网站
  • 制作商务网站硬件开发工程师是干什么的
  • 商城购物网站开发意义东兴网站建设
  • 网站建设商家建设网站的意义
  • 网站标题的关键字怎么写小程序软件开发制作
  • 网站提交收录入口深圳做网站600
  • 茂名网站建设优化seo网页设计制作网站素材
  • 淘宝客做软件网站app企业加强网站建设的必要性
  • 男女做那个的小视频网站丽江网络推广