宁波网站建设公司排名,清远市建设局网站,wordpress获取所有分类,珠海市网站设计公司#x1f604; 花一个小时快速跟着 人生导师-李沐 过了一遍GPT, GPT-2, GPT-3。下面精简地总结了GPT系列的模型结构训练范式实验。 文章目录1、GPT1.1、模型结构#xff1a;1.2、范式#xff1a;预训练 finetune1.3、实验部分:2、GPT-22.1、模型结构2.2、范式#xff1a;预… 花一个小时快速跟着 人生导师-李沐 过了一遍GPT, GPT-2, GPT-3。下面精简地总结了GPT系列的模型结构训练范式实验。 文章目录1、GPT1.1、模型结构1.2、范式预训练 finetune1.3、实验部分:2、GPT-22.1、模型结构2.2、范式预训练 zero-shotzero-shot, one-shot, few-shot的区别2.3、实验3、GPT-33.1、模型结构3.2、范式预训练 few-shot3.3、实验3.4、GPT-3局限性1、GPT
论文《Improving Language Understanding by Generative Pre-Training》, OpenAI
1.1、模型结构
GPT基于transformer的decoder结构。
1.2、范式预训练 finetune
也是自监督预训练 (语言模型)微调的范式。
预训练用的是标准的语言模型的目标函数即似然函数根据前k个词预测下一个词的概率。微调用的是完整的输入序列标签。目标函数有监督的目标函数λ*无监督的目标函数。改变输入形式接上对应下游任务的层就可实现不同下游任务。
1.3、实验部分:
使用BookCorpus数据集训练包括7000篇未发表的书模型使用12层trm的解码器每层维度768
2、GPT-2
《Language Models are Unsupervised Multitask Learners》, OpenAI
2.1、模型结构
GPT-2也是基于transformer的decoder结构。
2.2、范式预训练 zero-shot
GPT-2可以在zero-shot设定下实现下游任务即不需要用有标签的数据再微调训练。为实现zero-shot下游任务的输入就不能像GPT那样在构造输入时加入开始、中间和结束的特殊字符这些是模型在预训练时没有见过的而是应该和预训练模型看到的文本一样更像一个自然语言。可以通过做prompt模版的方式来zero-shot。例如机器翻译和阅读理解可以把输入构造成“请将下面的一段英语翻译成法语英语法语”。
zero-shot, one-shot, few-shot的区别 2.3、实验
数据从Reddit中爬取出来的优质文档共800万个文档40GB。GPT-2参数量1.5B15亿。模型越大效果越好。所以考虑用更多的数据做更大的模型于是GPT-3应运而生。
3、GPT-3
《Language Models are Few-Shot Learners》, OpenAI
GPT-2虽然提出zero-shot比bert有新意但是有效性方面不佳。GPT-3考虑few-shot用少量文本提升有效性。总结GPT-3大力出奇迹
3.1、模型结构
GPT基于transformer的decoder结构。GPT-3模型和GPT-2一样GPT-2和GPT-1区别是初始化改变了使用pre-normalization以及可反转的词元。GPT-3应用了Sparse Transformer中的结构。提出了8种大小的模型。
3.2、范式预训练 few-shot
论文尝试了如下方案评估方法few-shot learning10-100个小样本one-shot learning1个样本zero-shot0个样本其中few-shot效果最佳。
fine-tuning预训练 训练样本计算loss更新梯度然后预测。会更新模型参数zero-shot预训练 task description prompt直接预测。不更新模型参数one-shot预训练 task description example prompt预测。不更新模型参数few-shot预训练 task description examples prompt预测。不更新模型参数
3.3、实验
GPT-3参数量1750亿。爬取一部分低质量的Common Crawl作为负例高质量的Reddit作为正例用逻辑回归做二分类判断质量好坏。接下来用分类器对所有Common Crawl进行预测过滤掉负类的数据留下正类的数据去重利用LSH算法用于判断两个集合的相似度经常用于信息检索加入之前gptgpt-2bert中使用的高质量的数据
3.4、GPT-3局限性
生成长文本依旧困难比如写小说可能还是会重复语言模型只能看到前面的信息语言模型只是根据前面的词均匀预测下一个词而不知道前面哪个词权重大只有文本信息缺乏多模态样本有效性不够模型是从头开始学习到了知识还是只是记住了一些相似任务这一点不明确可解释性弱模型是怎么决策的其中哪些权重起到决定作用负面影响可能会生成假新闻可能有一定的性别、地区及种族歧视