小票在线生成小程序,seo公司服务,广告公司 网站制作,广告设计专业学校Hung-yi Lee 课件整理 预训练得到的模型我们叫自监督学习模型#xff08;Self-supervised Learning#xff09;#xff0c;也叫基石模型#xff08;foundation modle#xff09;。 文章目录 机器是怎么学习的ChatGPT里面的监督学习GPT-2GPT-3和GPT-3.5GPTChatGPT支持多语言…Hung-yi Lee 课件整理 预训练得到的模型我们叫自监督学习模型Self-supervised Learning也叫基石模型foundation modle。 文章目录 机器是怎么学习的ChatGPT里面的监督学习GPT-2GPT-3和GPT-3.5GPTChatGPT支持多语言ChatGPT里面的自监督学习 Ggenerative Ppre-train Ttransformer 机器是怎么学习的 有监督学习一般需要成对的语料来训练模型比如机器翻译为例需要中文和英文成对的语料来训练模型。 ChatGPT里面的监督学习 这里讲怎么把有监督学习套用到ChatGPT上还是成对的语料一问一答给到模型机器自己寻找一个函数使得当我们输入“台湾第一高峰是哪一座”的时候输出“玉”的概率最大当把“玉”再加到问句后面输入给模型的时候输出“山”的概率最大。 但是这时候出现一个问题假设机器真的是根据老师的教导来寻找函数它的能力会非常有限因为人类老师可以提供的成对资料十分有限。比如我们问它世界第一高山是哪一座它的学习语料里面没有喜马拉雅这个词那么它就不会输出正确的结果。
实际上ChatGPT有一个机制可以无痛制造成对的语料。 网络上的每一段文字都可以教机器做文字接龙比如“世界第一高峰是喜马拉雅山”ChatGPT可以把前半段当作输入后半段当作输出。 当输入“世界第一高峰是”的时候输出“喜”字的概率最大。 当输入“今天天气真好”的时候输出“”的概率最大。
ChatGPT的上一代模型GPT它设计的目标就是这样一个文字接龙模型。 GPT-2
GPT模型在2018年就已经出现了那时候模型比较小只有117M的参数使用的数据也只有1GB。 第二年2019年公开了GPT-2模型大小到了1542M的参数训练数据是40G。 这时候的GPT就可以瞎掰了讲出来的东西就开始像模像样了。 GPT-2能做很多事情比如回答“世界第一高峰”这个问题给一段文字让它输出摘要。 对于GPT-2在回答问题上的表现有这样一个测试。 横轴表示模型的大小纵轴表示F1不知道的可以理解为准确率我们看出它的能力和人类的回答还有很大的差距但是比一些常见的模型好很多了。 就算只是做文字接龙这时候的GPT就已经有能力回答问题了。 GPT-3和GPT-3.5 到了2020年GPT-3的参数量是GPT-2的100倍了有175B的参数它的训练数据有570GB这个数据量相当于阅读哈利波特30万遍实际上OpenAI从网络上爬取了45T的数据从中筛选了570GB数据出来训练模型。 那么什么是GPT-3.5呢其实没有任何一篇文章明确说明它的含义OpenAI官方的说法是只要是在GPT-3上做微调再来做其他事情的模型都是GPT-3.5。 我们来看看GPT-3能做什么事情。 我们给GPT-3输入这样的语料输入是程序代码的描述输出是程序代码这样它就可以写程序了这不是很惊人的事情。 这里我们可以看到在42个NLP任务上做的测试先不考虑细节整体上可以看到随着模型越来越大准确率在提高但是最大的也就是不到60%的准确率难道GPT-3智能这么大点能耐吗 GPT
其实GPT很多时候是不受控制的。 比如说你给它一段描述让它剖析一下这段程序语言问他这段代码里面的C的目的是什么它给出的答案是这样的出一个选择题给你让你选择。
这是因为它学习了网上很多试题它的学习能力很强但是给出的答案不一定是我们想要的 ChatGPT
怎么办呢怎么才能强化它的能力呢。 再下一代就到ChatGPT了。需要介入人类老师了在这之前是不需要人类老师的从GPT到ChatGPT就需要人类老师的介入了所以ChatGPT是GPT经过监督学习的模型。 人类老师告诉它以后别人问你“台湾最高的山是什么山”你要告诉他是“玉山”。
这个有监督学习的过程也叫finetune或者是继续学习之前的GPT模型是预训练模型也是自监督学习。
这里用于有监督学习的语料不是人类整理的是用一些方法无痛生成的这种方式就叫做自监督学习也叫基石模型。 支持多语言
它是怎么做到支持多语言的呢 ChatGPT不是在单一的预训练模型上做的finetune里面可能就包含Muti-Bert这样的语言模型。 Muti-Bert支持104种语言当我们给它只做了英文的阅读理解后它自动的其他语言也都学会了。 所以ChatGPT不需要单独做翻译这件事情它自己就学会了翻译。 来看看真正的实验数据。 最下面一行显示人类的表现是93%的准确率。
在AQNet模型的Pre-train里面没有中文语料用中文语料做finetune然后再在中文上做测试准确率只有78.1在Bert模型的Pre-train里面只有中文语料用中文语料做finetune然后再在中文上做测试准确率是89.1提升了不少神奇的是在Bert模型的Pre-train里面有104中语言用英文语料做finetune然后再在中文上做测试准确率也能达到78.8这说明了我们教它英文它自己学会了中文。
怎么理解呢在机器学完很多种语言后对它来说所有的语言都是一种语言了没有差别。 ChatGPT里面的自监督学习
我们知道ChatGPT除了自监督学习有监督学习还做了强化学习。 在强化学习里面人不是告诉机器答案是什么而是告诉机器现在的答案是好还是不好。 增强学习有什么好处呢监督学习的老师是比较辛苦的需要知道正确的答案强化学习的老师就可以偷懒只需要点个赞或者点个倒赞就可以。 增强学习还有一个优势是适合用在人类自己都不知道答案的时候比如“请帮我写诗赞美AI”这样的问题人类不需要给答案只要给反馈就可以了。
那么ChatGPT就是这样三个过程先做预训练然后做有监督学习最后做强化学习。 至于增强学习其他的细节我们下一篇博客再细讲。