当前位置：首页 > news >正文

有了源码可以做网站吗wordpress简约模板

news 2026/4/26 8:13:45

有了源码可以做网站吗,wordpress简约模板,wordpress 图片,2345网址导航更新作者实证研究了针对流行的开放式预训练 LLM 系列的简单层修剪策略#xff0c;发现在不同的 QA 基准上#xff0c;直到去掉一大部分#xff08;最多一半#xff09;层#xff08;Transformer 架构#xff09;后#xff0c;性能的下降才会降到最低。为了修剪这些模型…作者实证研究了针对流行的开放式预训练 LLM 系列的简单层修剪策略发现在不同的 QA 基准上直到去掉一大部分最多一半层Transformer 架构后性能的下降才会降到最低。为了修剪这些模型作者通过考虑各层之间的相似性来确定要修剪的最佳层然后为了“治愈”损伤进行了少量的微调。特别是 PEFT 方法尤其是量化和低秩适配器QLoRA这样每个实验都可以在单张 A100 GPU 上完成。从实用的角度来看这些结果表明层剪枝方法一方面可以补充其他 PEFT 策略进一步减少微调的计算资源另一方面可以改善推理的显存开销和生成时延。从科学角度看这些 LLM 对层删除的鲁棒性意味着要么当前的预训练方法没有正确利用网络深层的参数要么浅层在存储知识方面起着关键作用。方法作者在论文中写道移除层的直觉来自于将表征视为层索引的缓慢变化函数特别是 transformer 层与层之间的表征变化由一个残差迭代方程给出 x ( l 1 ) x ( l ) f ( x ( l ) , θ ( l ) ) x^{(l 1)} x^{(l)} f(x^{(l)}, \theta^{(l)}) x(l1)x(l)f(x(l),θ(l)) 注意现在的 LLM 大都是 pre-norm 形式具体原因可参考苏神的博客为什么Pre Norm的效果不如Post Norm。其中 ( x ( l ) , θ ( l ) ) (x^{(l)}, \theta^{(l)}) (x(l),θ(l))分别是层 ℓ 的多维输入向量和参数向量 f ( x , θ ) f(x, \theta) f(x,θ)描述了一个多头自注意和 MLP 层的变换。与任何残差网络一样如果展开这一迭代就会发现在总共 L 层之后输出被描述为所有层的变换之和。 x ( L ) x ( 0 ) ∑ l 0 L − 1 f ( x ( l ) , θ ( l ) ) , (2) x^{(L)} x^{(0)} \sum_{l0}^{L-1} f(x^{(l)}, \theta^{(l)}), \tag{2} x(L)x(0)l0∑L−1f(x(l),θ(l)),(2) 如果总和中的项很多L 1而且相互独立例如如果块transformer block函数是整个输入的函数 f ( x ( 0 ) , θ ( l ) ) f(x^{(0)}, \theta^{(l)}) f(x(0),θ(l))那么对总和公示 (2) 的任何特定贡献都可以忽略不计。当然它们并不是完全独立的如果我们删除层 ℓ - 1那么现在必须将该层的旧输入 x ( ℓ − 1 ) x^{(ℓ-1)} x(ℓ−1)连接到层 ℓ 的块函数中即 x ( ℓ 1 ) x ( ℓ − 1 ) f ( x ( ℓ − 1 ) , θ ( ℓ ) ) , (3) x^{(ℓ 1)} x^{(ℓ - 1)} f(x^{(ℓ - 1)}, \theta^{(ℓ)}), \tag{3} x(ℓ1)x(ℓ−1)f(x(ℓ−1),θ(ℓ)),(3) 其中为了清晰起见尽管删除了输入作者并没有重新标记层或输入。一般来说原始输入和新输入之间的这种不匹配会对网络造成极大的破坏。但是如果在经过一定数量的初始层后表征收敛到一个与层索引相关的缓慢变化函数。 x ( ℓ ) ≈ x ( ℓ − 1 ) ϵ , (4) x^{(ℓ)} \approx x^{(ℓ - 1)} \epsilon, \tag{4} x(ℓ)≈x(ℓ−1)ϵ,(4) 无论如何任何层的删除都会产生级联效应因为剪枝后 x ( ℓ 1 ) x^{(ℓ1)} x(ℓ1) 的计算函数与之前不同参见 (1) 与 (3)而且 x ( ℓ 1 ) x^{(ℓ1)} x(ℓ1) 会直接或间接输入到后续层ℓ 2, … , L删除浅层的影响应该比删除深层的影响大得多。由此作者提出了以下假设并将对其进行实验验证我们应该能够剪枝残差网络的层。我们应该能够更成功地剪枝较深的层。成功剪枝的层块应该具有与其输入相似的输出。 Layer-pruning 算法层剪枝算法非常简单选择要剪枝的层数 n。在中性的预训练数据集或代表下游任务的数据集上计算层 l 输入与层 l n 输入之间的角距离 d ( x ( l ) , x ( l n ) ) d(x^{(l)}, x^{(l n)}) d(x(l),x(ln))参见下文公式7。找出最小化该距离的层 l ∗ l^* l∗ ℓ ⋆ ( n ) ≡ arg ⁡ min ⁡ ℓ d ( x ( ℓ ) , x ( ℓ n ) ) . (6) \ell^{\star}(n) \equiv \underset{\ell}{\arg \min } \ d\left(x^{(\ell)}, x^{(\elln)}\right). \tag{6} ℓ⋆(n)≡ℓargmin d(x(ℓ),x(ℓn)).(6) 4. 将层 l ∗ l^* l∗ drop 到 l ∗ n − 1 l^* n - 1 l∗n−1将层 l ∗ l^* l∗ 的旧输入连接到旧第 ( l ∗ n ) (l^* n) (l∗n) 层块层通常包含在一个数据结构中例如 PyTorch 中的 ModuleList要删除这些层只需定义一个新的 ModuleList删除从 l ∗ l^* l∗ 到 l ∗ n − 1 l^* n - 1 l∗n−1 的层。 5. 可选在中性预训练数据集或感兴趣的特定数据集上进行少量微调修复层 l ∗ n l^* n l∗n 上的不匹配可以理解为在对模型架构“动刀”后模型的效果会出现下降通过在原有或下游领域的数据集上微调使“动刀”后的模型适应这种新的架构。详细说明第一步长度为 T 的单个序列的角距离为 d ( x ( ℓ ) , x ( ℓ n ) ) ≡ 1 π arccos ⁡ ( x T ( ℓ ) ⋅ x T ( ℓ n ) ∥ x T ( ℓ ) ∥ ∥ x T ( ℓ n ) ∥ ) , (7) d\left(x^{(\ell)}, x^{(\elln)}\right) \equiv \frac{1}{\pi} \arccos \left(\frac{x_{T}^{(\ell)} \cdot x_{T}^{(\elln)}}{\left\|x_{T}^{(\ell)}\right\|\left\|x_{T}^{(\elln)}\right\|}\right), \tag{7} d(x(ℓ),x(ℓn))≡π1arccos xT(ℓ) xT(ℓn) xT(ℓ)⋅xT(ℓn) ,(7) 其中内积是序列最后 token T 的模型隐藏维度||-||表示 L2 正则化1/π 是约定俗成的系数。然后应将这一距离与一定数量的示例相加该数量应足够大以获得低波动估计值但总体上应相当小。图 1 层剪切策略概述和示例结果a描述算法的流程图如果要删除 n 层我们要找到使层 ℓ 和 ℓn 之间角距离 d 最小的层 ℓ∗然后从层 ℓ∗ 开始删除 n 层最后如果有必要我们可以通过少量参数有效的微调来治愈损伤。在详细阐述最后一步的“可选”时作者发现参照图 1(d) 和实验部分的 QA 基准上几乎没有性能下降的情况可以通过少量微调扩展到更大的剪枝分数。根据资源限制和修剪后模型的预期应用这可能不是必须的。不过愈合过程确实会对 PPL 产生重大影响参见图 1(d) 和实验部分的 next token 预测损失。对于角距离测量和愈合如果最终目标是针对下游任务对模型进行监督微调SFT那么评估该数据集样本的距离然后将愈合过程与 SFT 结合起来可能会很有用。相比之下为了获得最大的通用性最自然的做法是使用近似于模型最初预训练时的统计数据的预训练数据集来测量距离并进行修复。最后作者还研究了一种更简单的剪枝策略其灵感来自于对不同模型角距离的分析放弃最深的层不包括 LLM head 之前的最后一层然后非选择性地愈合损失。为了完全清楚起见这意味着如果要从一个 L 层模型中剪枝 n 层可以移除 (L - n) 至 (L - 1) 层包括 (L - 1) 层。实验结果在本节中作者在不同的问题解答QA基准上证明了剪枝策略的有效性并强调了由剪枝驱动的性能转变与此相反作者发现愈合剪枝模型的自回归 PPL 在其转变点上是连续的然后在比较了不同模型大小和模型族中不同层之间的相似性统计之后将主要相似性信息剪枝策略与更简单的去除最深层策略进行了对比。 QA 基准的准确率第一组结果如图 2 所示图中绘制了 5-shot MMLU 准确率与被移除层数的函数关系图左图是 Llama-2 系列模型中图是 Qwen 系列模型右图是 Mistral-7B 和 Phi-2 模型。为了更好地比较不同总层数的模型在这些图中选择用移除层数的百分比而不是移除层数的绝对值来归一化 x 轴。请注意由于 MMLU 包含四个可能回答的多选题随机猜测的预期准确率为 25%。图 2不同模型系列的 MMLU 准确率5-shot与移除层数的关系左Llama-2 系列中Qwen 系列右Mistral-7B 和 Phi-2。(实线表示移除层数并愈合后的性能虚线表示只移除图层不愈合后的性能灰色虚线是随机猜测的得分。对于这些模型来说愈合带来的改进不大而且性能相当稳定直到剪枝百分比达到 20%-55% 时取决于模型族和大小性能才会过渡到随机猜测。重要的是在 Llama-2 家族的模型中看到了一个具有特征性的稳健性能的平坦区域然后在剪枝百分比约为 45%-55% 时急剧过渡到随机猜测在 Mistral 7B 中为 35%在 Phi-2 中为 25%在 Qwen 家族的模型中为 20%。这意味着获得模型最高分所需的基本知识并不会因为大量移除层而被移除——尽管移除的部分可能相当大——直到最终在一个与模型有关的临界值上失去了这些知识。对比有愈合和无愈合的曲线可以发现微调提供了适度的改进它更好地保持了未剪枝的性能并延缓了向随机猜测的转变。大体上发现对于较大和较深的模型例如 Llama-2-13B 和 Llama-2-70B层剪枝是更稳健的作者假设这可能与以下事实有关或者较小的模型更过度训练使得参数冗余较少或者较深的模型在绝对意义上可以承受损失更多的层。此外Qwen 家族也很奇怪将在下文的表征之间的角度距离进一步阐述。我理解较小的模型并不是参数冗余较少而是层数较少每一层都对最终输出起到一定的作用无非是作用的大与小。较深的模型训练的难度大反向传播时很难训练到模型的浅层使得中间层的输出区别并不大因此在模型嫁接中往往会对这一部分动刀。问题什么是模型嫁接呢回答GPT-4-1106-preview 的回答——在深度学习领域通常指的是修改已经训练好的神经网络模型的结构以便重新利用或优化模型。这种技术可以用于多种场景比如迁移学习、模型压缩、修正模型缺陷或者适应新的任务等。读者们也可以看看张俊林大佬在知乎上写的关于模型嫁接的想法 SOLAR 这种“模型嫁接”很有意思。今年年初的时候SOLAR 火爆一时我所在的公司也尝试过模型嫁接的方式同事在线上应用后表示业务指标效果一般。后来我查看了相关的实验报告发现很可能是选择的层有问题。后面的层深层往往和业务场景的关联较深直接复制后面 16 层效果不会太好。看社区里面的融合方式通常是前 24 层后 24 层让中间层重叠。最近 Yi 发出的技术报告显示他们是通过评估每一层输入和输出之间的余弦相似度来寻找适合进行复制的层把余弦相似度接近 1 的层进行复制从而扩展到 48 层通常是 10B 左右。接着 continue pretraining。如果资源不足可以在大规模的 SFT 数据集上微调让中间重叠层能够有所区别起到作用。在 Yi 的技术报告中也写到一项技术 Depth Upscaling他们发现在扩展宽度后模型的性能显著下降在对原始模型进行深度加强通过选择适当的层后新层的输入/输出余弦越接近 1.0即放大模型的性能可以保持原始模型的性能性能损失很小。于是Yi 团队对 6B 模型进行 depth up-scaling得到 Yi-9B。方法来自于 SOLAR 10.7B将原来的 32 层扩展到 48 层。通过评估每一层输入和输出之间的余弦相似度来寻找适合用来进行复制的层把余弦相似度接近 1 的层进行复制。这样扩展得到的 9B 模型只需要很轻量的二阶段训练0.4T 文本代码0.4T 文本代码数学就能得到很不错的性能。那么通过这种方式来扩展层数同样也可以基于此来减少层数这就是这篇论文所要讲述的核心内容。 next token 预测损失在本节中将在 C4 验证集的一个子集上评估层剪枝对预训练优化目标next-token 预测的交叉熵损失的影响。为了公平地比较不同规模词汇表 V 的模型作者用 log V 对损失进行了归一化处理这相当于以均匀概率随机抽样 token 的损失。在图 3 中作者绘制了所有七个模型在愈合后左图和愈合前右图的归一化 C4 验证损失并将其作为移除部分层的函数。在未进行愈合的情况下可以看到每个模型都会在大约剪枝分数处急剧等同于过渡到随机猜测而 QA 基准准确率也会在这一分数处急剧过渡到随机猜测这表明模型在这一点上已无药可救参见图 2。图 3愈合前左图和愈合后右图归一化 C4 验证损失与移除层数的关系每条曲线都根据从模型词汇中均匀采样的交叉熵损失进行了归一化。在愈合前的实验中每个模型的损失都在大致相同的修剪分数上过渡到随机猜测灰色虚线而 QA 基准则过渡到随机猜测愈合后QA 任务的急剧过渡区域具有连续性参见图 2。对比两幅图的整体比例可以明显看出修复后next token 预测的性能显著恢复到接近未剪枝的水平。接下来对比两幅图的比例可以看到愈合显著地将所有模型的 next token 预测能力恢复到了接近未修剪的水平损失随着层数的下降缓慢地线性增加。从科学的角度来看最引人注目的是愈合后修剪分数的连续性而之前发现 QA 基准的修剪分数有急剧的变化这种脱钩说明了下游任务如 MMLU 和 BoolQ的性能与连续性能测量如交叉熵损失之间脱节或产生误判的一种方式。表征之间的角度距离鉴于角度距离公式(7)在剪枝策略中发挥着核心作用让我们分节来看看七个模型的角度距离。在这项分析中每个模型的角度距离都是 C4 验证集 10k 个样本的平均值。回顾之前的图 1© 对于 Llama-2-70B在 n 1 到 n 64 的区块大小的所有初始索引 ℓ 中绘制了比较第 ℓ 层和第 (ℓ n) 层的角距离 d ( x ( ℓ ) , x ( ℓ n ) ) d(x^{(ℓ)}, x^{(ℓn)}) d(x(ℓ),x(ℓn))曲线的最小值 ℓ ∗ ( n ) ℓ^*(n) ℓ∗(n) 给出了给定 n 时的最佳剪枝块参见公式 (6)。图 4评估的七个模型中每个模型的初始层 ℓx 轴与块大小 ny 轴的归一化角距离 (7)每个 n 的距离都被移动和重标以跨越相同的范围 [01]从黄色到紫色最佳剪枝块 ℓ ∗ ( n ) ℓ^∗(n) ℓ∗(n) 对应于每行最深的黄色。在不同的模型中深层往往非常相似但包括最后一层沿外对角线的方格在内的最深块接近最大差异。图 4 的热图以更简洁的方式显示了相同的数据每个正方形都用颜色标出了在所有可能的 ℓ 和 n 中层 ℓ 和 ℓ n 之间的行归一化角度距离而 n 则是层总数的很大一部分在给定块大小的情况下最佳剪枝层 ℓ ∗ ( n ) ℓ^*(n) ℓ∗(n) 与每行中的最小距离相对应。在不同的模型中作者总结出两点深层块之间的距离最小这意味着深层块之间通常非常相似可以更容易地放弃最深层块包括最后一层的块之间的距离取最大值或接近最大值这意味着永远不应该放弃最后一层。作者总结出的第二点与论文《LIMALess is More for Alignment》提出的“表层对齐假说”观点也吻合现在的大部分对齐微调可能只是调整了模型的表层即最后一层使其输出符合人类的偏好格式。但也有少数例外。对于某些模型如 Phi-2-2.7B或某些模型中最大的块如 Llama-2-7B最后几层似乎很重要。如前所述Qwen 家族有些不寻常在这里可以看到对于浅区块有一些奇特的高相似性“孤岛”这可能是图 2 中较短的稳健性能区域的原因。后续如果有时间可以深入研究 Qwen 模型探究下为啥会有些“不寻常”。简单的剪枝策略受近期结论的启发作者尝试了一种非常简单的启发式剪枝策略1如果要从一个 L 层模型中剪枝 n 层则将层数L - n降至L - 1以移除不包括最后一层的最深块然后2像之前一样进行少量微调愈合。与主要相似性信息剪枝策略相比这种更简单的启发式算法的优势在于从业人员无需将未剪枝模型加载到 GPU 或进行推理。它还对优化修剪块的重要性进行了有意义的消减。在图 5 中作者对两种剪枝策略进行了对比包括愈合前左侧面板和愈合后右侧面板的 QA 基准MMLU/BoolQ顶部/中间面板和自回归损失C4 验证底部面板。图 5使用简单剪枝启发式红色实线对 Llama-2-70B 进行的评估同时显示的还有相似性信息剪枝策略蓝色实线的得分、未经剪枝的 Llama-2-70B 的得分红色虚线以及随机猜测的得分灰色虚线。(左愈合前右愈合后上MMLU中BoolQ下MMLU BoolQ, Bottom C4 验证损失。在未进行愈合的情况下简单启发式在所有测试中的表现都很差而在进行愈合后两种方法的得分非常接近。一方面简单启发式在没有愈合剪枝造成损伤的情况下表现相当糟糕随着剪枝分数的增加QA 基准的准确率迅速下降到接近随机水平即使进行少量剪枝loss 也开始迅速增加。另一方面两种剪枝策略在不同评估中的结果在愈合后相当对于 QA 基准相似性信息算法略微更好地保持了阶段转换前的准确性尽管简单算法可能将阶段转换推向了略微更大的剪枝派别对于 loss曲线几乎相互重叠尽管相似性信息策略在所有剪枝量下都略微优于其他策略。这些实验有力地证明剪枝后微调的目的是愈合剪枝造成的损伤而不是获取额外的知识。

查看全文

http://www.hkea.cn/news/14419114/