当前位置：首页 > news >正文

免费域名映射seo是干什么的

news 2026/4/25 7:27:01

免费域名映射,seo是干什么的,做商城网站的项目背景,0元建设黑网站目录参考资料前言一、预训练二、神经网络语言模型#xff08;NNLM#xff09;#xff1a;预测下一个词one-hot编码的缺陷词向量#xff08;word embedding#xff09; 三、Word2Vec模型#xff1a;得到词向量CBOWSkip-gramWord2Vec和NNLM的区别Word2Vec的缺陷四、ELMO模… 目录参考资料前言一、预训练二、神经网络语言模型NNLM预测下一个词one-hot编码的缺陷词向量word embedding 三、Word2Vec模型得到词向量CBOWSkip-gramWord2Vec和NNLM的区别Word2Vec的缺陷四、ELMO模型通过预训练得到词向量参考资料感谢我的互联网导师水论文的程序猿参考资料和图片来源Transformer、GPT、BERT预训练语言模型的前世今生目录预训练语言模型的前世今生 - 从Word Embedding到BERT B站教学视频预训练语言模型(Transformer、BERT的前世今生前言一、预训练通过 ImageNet 数据集我们训练出一个模型 A由于上面提到 CNN 的浅层学到的特征通用性特别强我们可以对模型 A 做出一部分改进得到模型 B两种方法冻结浅层参数使用模型 A 的参数高层参数随机初始化浅层参数一直不变然后利用领导给出的 30 张图片训练参数微调浅层参数使用模型 A 的参数高层参数随机初始化然后利用领导给出的 30 张图片训练参数但是在这里浅层参数会随着任务的训练不断发生变化二、神经网络语言模型NNLM预测下一个词 one-hot编码的缺陷独热编码无法计算词语之间的相似度余弦相似度比如fruit为[1,0,0,0,0,0,0,0], banana为[0,0,0,0,0,0,0,1]这两个词在词义上有从属关系但是若计算余弦相似度则为0. 如果使用独热编码来对词汇进行存储的话占用的存储空间会很大3000个词就需要一个3000*3000的独热编码矩阵。 w1*Q c1 词向量word embedding 神经网络的副产品词向量使用Q矩阵来降维如果Q矩阵足够小如维度为30001那么30003000的词向量与Q矩阵相乘就会变成一个3000*1的向量这就是一个词向量。词向量优势可以选择词向量的维度可以求两个词之间的相似程度三、Word2Vec模型得到词向量主产品得到词向量 CBOW 给出词的上下文预测到当前词。 Skip-gram 给出一个词得到该词的上下文。 Word2Vec和NNLM的区别 NNNL - 重点是预测下一词双层感知机softmax(w2(tanh(w1(xQ)b1))b2) Word2Vec - CBOW 和 Skip-gram 的两种架构的重点都是得到一个 Q 矩阵softmax(w1 (xQ) b1)得到词向量 Word2Vec的缺陷词向量无法做到一个单词的多义性。 e.g. 苹果有水果中的苹果和苹果手机两个意思但是如果在训练时训练出来的词向量是代表水果苹果的意思那么在应用预测这个词时就只有水果的意思而没有手机的意思。四、ELMO模型通过预训练得到词向量改进无法识别多义词的问题。 ELMO可以把词语的上下文信息融合在Q矩阵中将词的上下文信息叠加起来形成一个词向量从而解决在不同语境中一个词语可以有不同意思的问题。

查看全文

http://www.hkea.cn/news/14405374/