当前位置：首页 > news >正文

查看网站是什么语言做的宁波seo软件

news 2026/4/6 19:10:54

查看网站是什么语言做的,宁波seo软件,企业网站建设对企业客户的意义,网站只用css做tab切换1. 摘要尽管大语言模型现在已经被广泛的应用于各种任务，但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响，本文设计了一系列的实验。通过实验表明，预训练语言模型中的lower和final layers与中间层分布不一致…

1. 摘要

尽管大语言模型现在已经被广泛的应用于各种任务，但是目前对其并没有一个很好的认知。为了弄清楚删除和重组预训练模型不同层的影响，本文设计了一系列的实验。通过实验表明，预训练语言模型中的lower和final layers与中间层分布不一致，并且中间层有着惊人的一致性。

2. 模型和benchmark

模型：BERT-Large和Llama2
- llama-7B：32layers，每层包括202M参数
- llava-13B：40layers
- llava-70B：80layers
- BERT-large：24layers和340M参数
benchmark for llama2
- ARC：science exam question
- HellaSwag：commonsense
- GSM8K：Math Word Problems
- WinoGrande：Winograd Schema Challenge
- LAMBADA：word prediction，measures perplexity
benchmark for bert：
- GLUE
  - CoLA (Corpus of Linguistic Acceptability): Acceptability judgments drawn from linguistic
    theory.
  - MRPC (Microsoft Research Paraphrase Corpus): Semantic equivalence for news sentences.
  - QNLI (Stanford Question Answering Dataset): Question answering from paragraphs.
  - RTE (The Recognizing Textual Entailment): Textual entailment
  - SST2 (The Stanford Sentiment Treebank): Sentiment prediction.
  - STSB (The Semantic Textual Similarity Benchmark): Sentence pair similarity.
  - WNLI (The Winograd Schema Challenge): Sentence referent selection.

3. 实验

在这里插入图片描述

3.1 Do layers “speak the same language”?

**实验：**跳过某层或将前后两层调换顺序，实验结果如下图所示：
在这里插入图片描述
从上图中可以看出，对中间的模型层调换前后2层顺序及跳过某层，在benchmark上效果波动不大；但first和last few layers则相反。因此，可以推断出middle layer和first及last few layers有不同的表征空间，且中间层间的表征空间比较相似。
为了更进一步验证这个猜想，衡量了在benchmark上不同层hidden state的activation值间的cosine similarity。结果如下图所示：
在这里插入图片描述
从上图中可以看出，模型基本有三种表征空间，“beginning”，“middle”和“ending”。另外，“beginning”层和“middle”层的层数似乎随着模型总层数的增加而增加，而“ending”层则会固定到单层上。

3.2 Are all the layers necessary?

实验：跳过N层，将N+1层的输出作为T-N层的输入，T为模型总层数。=> skip
在这里插入图片描述
从上图中可以看出，当有少量的层被跳过时，模型效果并没有降低很多。

3.3 Are middle layers all doing the same thing?

虽然中间层表征空间是一样的，那么是否表示这些层是冗余的呢？
实验：在“middle”中用中心层的参数替换其他层的参数=>middle repeat
在这里插入图片描述
从上图中可以看出，随着替换层数的增加，模型效果下降的越发明显。所以“middle” layer中不同层有着不同的功能。

3.4 Does the layer order matter?

实验：1. 中间层倒过来=>reverse。2. 将中间层随机打乱。
在这里插入图片描述

不管是随机打乱层还是倒过中间层都对模型效果有不少的影响。但随机打乱要比中间层倒装的效果要好。

3.5 Can we run the layers in parallel?

能否将不同层独立运行，然后将结果合并呢？=> parallel
在这里插入图片描述
除了在GSM8K数学任务上，随着并行层数的增加，模型效果有着合理的降低。

3.6 Does the order matter for some tasks more than others?

是的，在数学和推理任务上，order比较重要。在语义任务上，order就还好。

3.7 Does looping help parallelized layers?

在这里插入图片描述
从上图可知，并行层重复多次能够有效的改善模型效果。

从上图中可知，最佳的迭代次数（重复次数）与并行层的数量成正比。

3.8 Which variants are least harmful?

在这里插入图片描述
从图中可知，重复单层是效果最差的，随机中间层和并行重复策略（looped-parallel）模型效果损失最小。

为什么skip要比middle repeat策略要差呢？

从图中可以发现，skip策略跟llama2-7B模型的cosine similarity一样。而middle repeat则发生了偏移。

4. 讨论

有三种不同类型的层，“beginning”，“middle”和“ending”
中间层有某种程度的均匀，但是不冗余。
模型层的执行顺序相较于语义任务，在数学和推理任务中更为重要

http://www.hkea.cn/news/854581/

相关文章：

做执法设备有哪些网站国家免费培训学校

顺德乐从有做阿里巴巴的网站吗杭州网站设计

做英文网站用阿里服务器行吗b2b网站推广排名

搭建网站做淘宝客网赌怎么推广拉客户

网站建设前台与后台最新技术2021最新免费的推广引流软件

做网站基本语言淘宝如何提升关键词排名

wordpress怎样分类目录添加标签seo文章范文

订阅号可以做网站吗南宁seo外包服务商

邢台哪儿做网站便宜宁波 seo排名公司

深圳网站优化咨询网上广告怎么推广

网站右击无效是怎么做的网络营销产品

中宣部网站政治建设网站服务器是什么意思

淮安网站定制徐州seo外包公司

嘉兴类网站系统总部网站建设技术解决方案

做网站的教科书外包网络推广公司推广网站

模板名字 wordpress优化大师如何删掉多余的学生

3d网站建设制作百度关键词优化手段

新手做那些网站比较好东莞企业网站排名

欧美风格网站360指数

优秀网站建设公司电话下列哪些店铺适合交换友情链接

58同城乌鲁木齐网站建设重庆网站到首页排名

wordpress知言主题山东服务好的seo公司

旅游商务平台网站建设功能需求关键词排名查询官网

做网站要搭建本地服务器么微商引流被加方法精准客源

网站名字要备案吗友情链接怎么弄

江苏网站开发外链网站大全

网站代备案流程图百度关键词优化排名技巧

石狮建设局网站今日头条站长平台

修改公司网站网页站长素材音效

网站速度测速免费访问国外网站的app