免费域名映射,seo是干什么的,做商城网站的项目背景,0元建设黑网站目录 参考资料前言一、预训练二、神经网络语言模型#xff08;NNLM#xff09;#xff1a;预测下一个词one-hot编码的缺陷词向量#xff08;word embedding#xff09; 三、Word2Vec模型#xff1a;得到词向量CBOWSkip-gramWord2Vec和NNLM的区别Word2Vec的缺陷 四、ELMO模… 目录 参考资料前言一、预训练二、神经网络语言模型NNLM预测下一个词one-hot编码的缺陷词向量word embedding 三、Word2Vec模型得到词向量CBOWSkip-gramWord2Vec和NNLM的区别Word2Vec的缺陷 四、ELMO模型通过预训练得到词向量 参考资料
感谢我的互联网导师水论文的程序猿 参考资料和图片来源Transformer、GPT、BERT预训练语言模型的前世今生目录 预训练语言模型的前世今生 - 从Word Embedding到BERT B站教学视频预训练语言模型(Transformer、BERT的前世今生
前言
一、预训练 通过 ImageNet 数据集我们训练出一个模型 A由于上面提到 CNN 的浅层学到的特征通用性特别强我们可以对模型 A 做出一部分改进得到模型 B两种方法
冻结浅层参数使用模型 A 的参数高层参数随机初始化浅层参数一直不变然后利用领导给出的 30 张图片训练参数微调浅层参数使用模型 A 的参数高层参数随机初始化然后利用领导给出的 30 张图片训练参数但是在这里浅层参数会随着任务的训练不断发生变化
二、神经网络语言模型NNLM预测下一个词
one-hot编码的缺陷 独热编码无法计算词语之间的相似度余弦相似度比如fruit为[1,0,0,0,0,0,0,0], banana为[0,0,0,0,0,0,0,1]这两个词在词义上有从属关系但是若计算余弦相似度则为0. 如果使用独热编码来对词汇进行存储的话占用的存储空间会很大3000个词就需要一个3000*3000的独热编码矩阵。 w1*Q c1 词向量word embedding
神经网络的副产品词向量
使用Q矩阵来降维如果Q矩阵足够小如维度为30001那么30003000的词向量与Q矩阵相乘就会变成一个3000*1的向量这就是一个词向量。
词向量优势可以选择词向量的维度可以求两个词之间的相似程度 三、Word2Vec模型得到词向量
主产品得到词向量
CBOW
给出词的上下文预测到当前词。
Skip-gram
给出一个词得到该词的上下文。
Word2Vec和NNLM的区别
NNNL - 重点是预测下一词双层感知机softmax(w2(tanh(w1(xQ)b1))b2)
Word2Vec - CBOW 和 Skip-gram 的两种架构的重点都是得到一个 Q 矩阵softmax(w1 (xQ) b1)得到词向量
Word2Vec的缺陷
词向量无法做到一个单词的多义性。 e.g. 苹果有水果中的苹果和苹果手机两个意思但是如果在训练时训练出来的词向量是代表水果苹果的意思那么在应用预测这个词时就只有水果的意思而没有手机的意思。 四、ELMO模型通过预训练得到词向量
改进无法识别多义词的问题。 ELMO可以把词语的上下文信息融合在Q矩阵中将词的上下文信息叠加起来形成一个词向量从而解决在不同语境中一个词语可以有不同意思的问题。