当前位置：首页 > news >正文

中国新闻社官方网站湖南建设资质申请网站

news 2026/4/29 10:17:42

中国新闻社官方网站,湖南建设资质申请网站,政务网站设计鉴赏,东莞网站建设兼职前言如此前这篇文章《学术论文GPT的源码解读与微调#xff1a;从chatpaper、gpt_academic到七月论文审稿GPT》中的第三部分所述#xff0c;对于论文的摘要/总结、对话、翻译、语法检查而言#xff0c;市面上的学术论文GPT的效果虽暂未有多好#xff0c;可至少还过得去从chatpaper、gpt_academic到七月论文审稿GPT》中的第三部分所述对于论文的摘要/总结、对话、翻译、语法检查而言市面上的学术论文GPT的效果虽暂未有多好可至少还过得去而如果涉及到论文的修订/审稿则市面上已有的学术论文GPT的效果则大打折扣原因在哪呢本质原因在于无论什么功能它们基本都是基于API实现的而关键是API毕竟不是万能的API做翻译/总结/对话还行但如果要对论文提出审稿意见则API就捉襟见肘了故为实现更好的review效果需要使用特定的对齐数据集进行微调来获得具备优秀review能力的模型继而我们在第一版中做了以下三件事爬取了3万多篇paper、十几万的review数据并对3万多篇PDF形式的paper做解析当然paper中有被接收的、也有被拒绝的为提高数据质量针对paper和review做了一系列数据处理基于RWKV进行微调然因其遗忘机制比较严重故最终效果不达预期所以进入Q4后我司项目团队开始做第二版(我司目前总共在不断迭代三大LLM项目除了论文审稿GPT之外还有AIGC模特生成系统、企业知识库问答)并着重做以下三大方面的优化数据的解析与处理的优化meta的一个ocr 能提出LaTeX借鉴GPT4做审稿人那篇论文让ChatGPT API帮爬到的review语料梳理出来以下4个方面的内容 1 重要性和新颖性2 论文被接受的原因3 论文被拒绝的原因4 改进建议模型本身的优化llama longlora或者mistral 第一部分多种PDF数据的解析 1.1 Meta nougat nougat是Meta推出的学术PDF解析工具其主页和代码仓库分别为 nougat主页 https://facebookresearch.github.io/nougat/nougat仓库 https://github.com/facebookresearch/nougat 对比下 nougat比较好的地方在于可以把公式拆解成latex很多模型底模会学习到latex的规则会较之直接地希腊符号好些另外就是识别出来的内容可以通过“#”符号来拆解文本段缺陷就是效率很低、非常慢拿共约80页的3篇pdf来解析的话大概需要2分钟且占用20G显存到时候如果要应用化要让用户传pdf解析的话部署可能也会有点难度sciencebeam的话就是快不少同样量级的3篇大约一分钟内都可以完成和第一版用的SciPDF差不多只需要cpu就可以驱动起来了当然还要考虑的是解析器格式化的粒度比如正文拆成了什么样子的部分后续我们需不需要对正文的特定部分专门取出来做处理如果格式化粒度不好的话可能会比较难取出来 // 待更第二部分第二版数据处理的优化借鉴GPT4审稿的思路 2.1 斯坦福让GPT4首次当论文的审稿人近日来自斯坦福大学等机构的研究者把数千篇来自Nature、ICLR等的顶会文章丢给了GPT-4让它生成评审意见、修改建议然后和人类审稿人给出的意见相比较在GPT4给出的意见中超50%和至少一名人类审稿人一致并且超过82.4%的作者表示GPT-4给出的意见相当有帮助这个工作总结在这篇论文中《Can large language models provide useful feedback on research papers? A large-scale empirical analysis》这是其对应的代码仓库所以怎样让LLM给你审稿呢具体来说如下图所示爬取PDF语料接着解析PDF论文的标题、摘要、图形、表格标题、主要文本然后告诉GPT-4你需要遵循业内顶尖的期刊会议的审稿反馈形式包括四个部分成果是否重要、是否新颖(signifcance andnovelty) 论文被接受的理由(potential reasons for acceptance) 论文被拒的理由(potential reasons for rejection) 改进建议(suggestions for improvement)最终GPT-4针对上图中的这篇论文一针见血地指出虽然论文提及了模态差距现象但并没有提出缩小差距的方法也没有证明这样做的好处 2.2 为了让模型对review的学习更有迹可循规划Review的格式很重要(需要做选取和清洗) 上一节介绍的斯坦福这个让GPT4挡审稿人的工作对我司做论文审稿GPT还挺有启发的正向看说明我司这个方向是对的至少GPT4的有效意见超过50%反向看说明即便强如GPT4其API的效果还是有限近一半意见没被采纳证明我司做审稿微调的必要性、价值性所在审稿语料的组织也还挺关键的好让模型学习起来有条条框框有条理分个 1 2 3 4 不混乱比如要是我们爬取到的审稿语料也能组织成如下这4块我觉得就很强了模型学习起来会很快成果是否重要、是否新颖论文被接受的理由论文被拒的理由改进建议对于第三点我们(特别是阿荀)创造性的想出来一个思路即让通过提示模板让ChatGPT来帮忙梳理咱们爬的审稿语料好把审稿语料梳理出来上面所说的4个方面的常见review意见那怎么设计这个提示模板呢借鉴上节中斯坦福的工作提示模板可以如下设计 // 待更第三部分 Mistral到llama longlora 3.1 Mistral 7B通过分组查询注意力滑动窗口注意力超越13B模型今年5月DeepMind和Meta的三位前员工在巴黎共同创立了Mistral AI今年10月他们发布了第一个基座大模型即Mistral 7B 据其对应的论文《Mistral 7B》称( 另这是其GitHub地址) Mistral 7B在所有评估基准中均胜过了目前最好的13B参数模型(Llama 2)并在推理、数学和代码生成方面超越了发布的34B参数模型Llama 34BMistral 7B outperforms the previous best 13B model (Llama 2, [26]) across all testedbenchmarks, and surpasses the best 34B model (LLaMa 34B, [25]) in mathematics and codegeneration.该模型采用了分组查询注意力(GQA)GQA显著加快了推理速度还减少了解码期间的内存需求允许更高的批处理大小从而提高吞吐量GQA significantly accelerates the inference speed, and also reduces the memory requirement during decoding, allowing for higher batch sizes hence higher throughput同时结合滑动窗口注意力(slidingwindow attention简称SWA)以有效处理任意长度的序列SWA is designed to handle longer sequences more effectively at a reduced computational cost 此外作者提供了一个针对遵循指令进行了微调的模型名为Mistral 7B - Instruct它在人工和自动化基准测试中均超过了Llama 2 13B-chat模型 3.1.1 什么是滑动窗口注意力 vanilla attention的操作次数在序列长度上是二次型的记忆量随着token数量线性增加。在推理时由于缓存可用性的降低这导致了更高的延迟和更小的吞吐量(The number of operations in vanilla attention is quadratic in the sequence length, and the memory increases linearly with the number of tokens. At inference time, this incurs higherlatency and smaller throughput due to reduced cache availability) 为了缓解这个问题我们使用滑动窗口注意力(sliding window attention) 每个token最多可以关注来自上一层的W个token(论文中W 3)。请注意滑动窗口之外的token仍然影响下一个单词预测each token can attend to at most W tokens from the previous layer (here, W 3). Note that tokensoutside the sliding window still influence next word prediction.在每个注意力层信息可以向前移动W个token。因此在k层注意力之后信息最多可以向前移动k个×W个tokenAt each attention layer, information can moveforward by W tokens. Hence, after k attention layers, information can move forward by up to k ×W tokens. 3.1.2 Rolling Buffer Cache 固定的注意力广度意味着我们可以使用滚动缓存来限制我们的缓存大小缓存的大小是固定的W时间步长i的键和值存储在缓存的位置i mod W中。因此当位置i大于W时缓存中过去的值就会被覆盖缓存的大小就会停止增加A fixed attention span means that we can limit our cache size using a rollingbuffer cache. The cache has a fixed size of W, and the keys and values for the timestep i are storedin position i mod W of the cache. As a result, when the position i is larger than W, past valuesin the cache are overwritten, and the size of the cache stops increasing在32k token的序列长度上这减少了8倍的缓存内存使用而不影响模型质量On a sequence length of 32k tokens, this reduces the cache memory usageby 8x, without impacting the model quality. // 待更 3.2 longlora longlora仓库 https://github.com/dvlab-research/LongLoRA longlora中文资料 https://zhuanlan.zhihu.com/p/659226557 // 待更参考文献与推荐阅读 GPT4当审稿人那篇论文的全文翻译【斯坦福大学最新研究】使用大语言模型生成审稿意见GPT-4竟成Nature审稿人斯坦福清华校友近5000篇论文实测超50%结果和人类评审一致几篇mistral-7B的中文解读https://zhuanlan.zhihu.com/p/658911982

查看全文

http://www.hkea.cn/news/14460383/