当前位置: 首页 > news >正文

智慧团建入口登录网站腾云网站建设怎么样

智慧团建入口登录网站,腾云网站建设怎么样,哈尔滨公司网站团队,网站开发相关文献阅读#xff1a;LIMA: Less Is More for Alignment 1. 内容简介2. 实验设计 1. 整体实验设计2. 数据准备3. 模型准备4. metrics设计 3. 实验结果 1. 基础实验2. 消解实验3. 多轮对话 4. 结论 思考 文献链接#xff1a;https://arxiv.org/abs/2305.11206 1. 内容简…文献阅读LIMA: Less Is More for Alignment 1. 内容简介2. 实验设计 1. 整体实验设计2. 数据准备3. 模型准备4. metrics设计 3. 实验结果 1. 基础实验2. 消解实验3. 多轮对话 4. 结论 思考 文献链接https://arxiv.org/abs/2305.11206 1. 内容简介 这篇文章是Meta在今年5月发的一篇文章算是对LLM进行的一个黑盒分析吧。核心来说这篇文章就是想要探究一下为什么LLM能够拥有如此强大的能力。 众所周知自打从BERT开始NLP大模型的范式就是大语料预训练加小数据集finetune。虽然GPT3短暂的抛弃了finetune而倡导直接的zero-shot learning但是从FLAN开始后期的InstructGPTChatGPT以及现今还没有公开技术细节的GPT4无一不是走的两阶段训练第一阶段进行大数据上的预训练第二阶段做instruct learning或者RLHF。 但是具体到两个阶段具体都产生了多大的贡献事实上还算是一个黑盒尽管直觉上我们都知道真正产生核心作用的必然是大数据的预训练过程不过后续的finetune过程到底可以产生多大的影响却不是很确定文中就是对这个点进行了细致地考察然后初步得到结果如下 LLM的核心还是在于预训练后续只需要用少量的高质量标注数据进行LLM的finetune就能够获得堪比SOTA的模型效果。 下面我们来具体看一下文章的细节。 2. 实验设计 1. 整体实验设计 首先我们来看一下文中的实验整体设计。 由于文中要考察的是finetune对模型整体效果的影响因此文中整体的实验设计思路就是减小finetune数据集用一个精选的小数据集进行模型的finetune即文中的LIMA模型然后和现有的一些常用的大模型进行效果比较检查这个方法训练得到的模型能否大幅提升模型的效果以及能够抗衡现有的常见大模型。 2. 数据准备 因此这里对于finetune使用的数据的质量的要求就很高。文中也是用了一个章节来介绍数据的构造方式。 首先我们给出文中的总的finetune数据分布如下 可以看到 文中的finetune主要使用了1000条数据其中这一千条数据当中有200条是人工写作的剩下的800条来自于网上的高质量数据集中的高分数据。 3. 模型准备 然后关于模型的准备方面文中主要是使用Meta自己的LLaMa 65B模型然后进行finetune。具体就是使用上述提到的1000条数据进行15个epoch的finetune。 而作为对照模型文中主要使用了如下几个模型作为对照组 Alpaca 65BDavinci003BardClaudeGPT4 4. metrics设计 最后关于实验的metrics设计方面文中其实给的比较简单基本就是300个样本交给标注员进行side by side比较。 除此之外考虑到人工标注的不稳定性文中还使用GPT4来进行side by side比较判断从而增加结论的可靠性。 3. 实验结果 下面我们来看一下文中的具体实验结果。 1. 基础实验 我们首先给出基础的实验结果如下 可以看到 LIMA模型击败了Alpaca 65B以及Davinci003模型虽然LIMA模型没有击败BARD模型但是有58%人工标注和53%GPT4标注的概率可以生成不差于BARD模型的结果模型效果逊于Claude模型以及GPT4模型 而除了考察LIMA模型和其他模型的比较之外文中还考察了一下LIMA自身回答的好坏抽样50个样本之后人工分析其效果如下 可以看到 只有12%的样本没有通过测试而获得优秀评价的样本占比达到了50%。 最后关于safety问题LIMA通过了80%的safety测试但是依然会出现差错尤其当文本描述并不直接的时候。 下面我们给出一些LIMA的具体case如下 2. 消解实验 然后文中还做了一些消解实验研究了一下LIMA为何使用如此小量的数据就能获得如此好的效果。 具体而言文中做了下面三个维度的消解实验 标注数据的prompt的diversity标注数据的质量标注数据的数量 给出文中的实验结果如下 可以看到 prompt的diversity以及数据本身的质量会显著影响模型的效果相对的标注数据的数量方面却没有表现出明显的变化从2k到32k的数据模型效果都相差无几。 3. 多轮对话 最后文中还考察了多轮对话当中LIMA的效果。 由于前期的实验当中并没有涉及多轮对话的训练语料所以这里新增了30条多轮对话的数据进行模型训练然后考察finetune前后在10个测试集上的测试结果如下 可以看到 经过少量多轮对话进行finetune之后模型在多轮对话上的表现明显提升。 下面是文中给出的一个具体的case展示 4. 结论 思考 综上我们可以看到 对于LLM而言其所有的知识基本上都是在预训练阶段就已经完成了finetune阶段的作用更多的是导出LLM在特定方向上的能力而非是增加其知识。因此对于LLM的finetune而言数据质量的影响远高于数据量的影响少量高质量的数据就足以令模型在特定领域发挥出足够优秀的效果。不过数据量少的代价也就是效果的不稳定这一点在文中的讨论部分也有提及少量数据虽然可以优化对应任务上的效果但是会弱化模型的泛化能力。 Anyway这些讨论的前提都是LLM可以载入并且进行finetune这一点可能就劝退大部分人了因此这篇文章可能也就是看看了围观一下大佬们的实验结论就是了……
http://www.hkea.cn/news/14303562/

相关文章:

  • 青岛公司网站开源微信商城源码
  • 赣县城乡规划建设局网站携永东方 wordpress
  • 富阳做网站公司上海浦东注册公司
  • 制作网站要多久wordpress后台页地址修改
  • 域名和网站建设费如何入帐wordpress如何关闭评论
  • 网站建设方案书 广东网站运营包括哪些内容
  • 网站建设策划结束语福建搜索引擎推广方法
  • 比较好的网站建设公司电子商务网站开发的流程图
  • 如何对新开网站做收录济南网站建设优化熊掌号
  • 通州重庆网站建设做网站的机构
  • 一个网站是怎么建立的茂名高端模板建站
  • 无锡本地网站企业整合营销
  • 珠海市建设工程造价协会网站用vs做购物网站
  • 网站能不能用自己的电脑做服务器wordpress主题重置
  • 门户网站建设报价哪个装修公司比较好
  • 免费做ppt的网站有哪些wordpress账户密码为空
  • 苏省住房和城乡建设厅网站商城网站建站方案
  • 网站的风格主要包括网站链接 动态图怎么做
  • 不收费的网站有哪些推荐做网站的话术
  • 珠海商城网站建设网站标题优化工具
  • 广告公司网站设计方案免费的关键词优化软件
  • 只做网站不做appwordpress 帖子权限
  • 网站代理网站安徽建设工程信息网官网入口
  • 网站建设需要那些人广西自治区集约化网站建设要求
  • 重庆网站icp备案查询北京专业公司建网站平台
  • 哪个软件可以做网站廊坊企业网站外包
  • 成都 地铁 建设 网站怎么样下载网页上的视频
  • 一分钟看懂seo企业网站seo参考文献
  • 网站模版一样 内容不同侵权吗中国建筑总公司网站
  • 做网站要那些工具简洁汽车配件网站模板