濮阳专业做网站公司,crm客户关系系统,长沙网站推广和优化,如何进行网站推广?网站推广的基本手段有哪些transformer与beter 解码和编码器含义tokizer标记器和one-hot独热编码编码解码--语义较好的维度空间矩阵相乘--空间变换编码理解如何构造降维的嵌入矩阵--实现到达潜空间上面是基础#xff0c;下面是transformer正文自注意力机制注意力分数--上下文修正系数为什么需要KQ两个矩… transformer与beter 解码和编码器含义tokizer标记器和one-hot独热编码编码解码--语义较好的维度空间矩阵相乘--空间变换编码理解如何构造降维的嵌入矩阵--实现到达潜空间上面是基础下面是transformer正文自注意力机制注意力分数--上下文修正系数为什么需要KQ两个矩阵并且还是转置进行相乘 交叉注意力机制绝对位置编码--对输入的数据进行修饰相对位置编码--修饰在注意力分数上面多头注意力机制 解码器掩码---正则残差模型框架 入门1从编解码和词嵌入开始一步一步理解Transformer注意力机制(Attention)的本质是卷积神经网络(CNN) - YouTube
中英文翻译大概原理就是把中文的token和英文的token分别投射到对应的潜空间中embeding之后将两个潜空间进行统一
潜空间里面每个位置代表不同的语义如果单看位置上面的值不能获得详细的语义。需要将所有特征也就是不同位置的语义合起来看才能代表详细的语义同理图片的特征也是一样需要将不同通道也就是不同特征上面的点合起来。才能知道图片该店的具体含义
解码和编码器含义
主要是解的码是语义也就是上下文关系
如图相当于存在一种上下文语义密切的话在高维空间具有更近的模长之类的关系
tokizer标记器和one-hot独热编码
实现对token也就是单位词做数字化 大概关系就是前者给id后者给种类标记
但不过这种简单的表示方法不能产生语义关系也就是 假设手机是1苹果是2.这样虽然很近但其实没有具体的语义关系
前者信息过于密集无法区分语义后者信息过于稀疏每个token基本都占据了一个维度
编码解码–语义较好的维度空间
这样既能利用好高维度空间也能利用空间的长度
因此想法有两个 想法一使用分词器tokzier获得密集信息在进行升高维度 想法二使用独热编码one-hot获得稀疏信息在进行降低维度压缩数据
主要是运用想法二的思想
矩阵相乘–空间变换 ![[images/Pasted image 20240418202413.png]]
如果只是向量和矩阵的乘法那么只会出现向量在新的坐标系下面的旋转和伸缩也就是空间的变换但不过值任然是一一对应的
如果采用矩阵相乘这个二次型的方式就会像函数一样向量出现形状的变化
下图演示
代表三个向量也就是三个数据经过空间变换矩阵得到新空间的数据所以规则矩阵和数据不能够进行颠倒
编码理解
先把一个文本里面的token词元变成独热码获取稀疏信息之后在进行降维获取词元之间的语义关系这里可以采用之前理解的距离
总结这个相当于把输入的一句话根据语义映射到到高维独热编码在把它投射到低维空间这个也就是嵌入过程embeding这个嵌入维度也就是潜空间
相当于一个token被映射到潜空间之后向量上面的位置代表了不同的语义 例如
潜空间里面向量的不同值代表是该语义的程度我们无法人为可知
如何构造降维的嵌入矩阵–实现到达潜空间
word2vec下面的 第一个CBOW邻字模型
相当于用上下文的token词元可能需要先升维度——独热编码通过嵌入矩阵获得嵌入向量之后进行相加将结果作为中间词元的嵌入向量这样就可以于真实的词元向量进行比较了进行修正
第一个跳字模型同理
最终的目的就是为了获得嵌入矩阵
转化为神经网络如下
只需要训练一个w即可因为解码过程是一个逆过程但实际过程好像是都要训练
不需要激活函数因为只是对向量进行见简单的相加和分解
上面是基础下面是transformer正文 核心是如何将得到的潜空间embeding去理解它的语义–注意力机制
自注意力机制 由于我们需要上下文语义的关系输入到注意力那块的时候不能是单个词的词嵌入向量需要输入多个T个嵌入向量维度是Din
按照原理输入的词向量组需要和三个矩阵进行空间变化得到KQV三个状态矩阵之后将K,Q其中一个转置相乘得到T X T的矩阵之后对改矩阵进行缩放其实就是缩放它的方差到1上面 之后缩放的矩阵进行softmax这里是按照行进行概率归一这样获得了注意力分数最后将其和V相乘得到输出注意力结果T X Dout
总结这个注意力分数相当于是该词在上下文关联的修改系数而V就是该词在嵌入空间的客观语义。
注意力分数–上下文修正系数 转置相乘得到的矩阵是所有词向量之间的关联性之后被转化为概率权重上下文关系最后用来修正次元的客观语义
为什么需要KQ两个矩阵并且还是转置进行相乘 因为这样就构造了二次型能够更好的表达模型的复杂情况更好的理解语义
需要K和Q也是因为在上下文语义中我们需要区分该词的设定语义和表达语义也就是前后关系所以猜测需要两个矩阵KQ
交叉注意力机制 相当于拿到解码器的主观语义里面的设定语义与解码器的KV进行操作
其实是相当于有了一份主观语义里面设定语义的参考资料相当于不需要理解主观语义学起来很被动但在机器翻译上面就没有问题
绝对位置编码–对输入的数据进行修饰 将0-n这些数字通过傅里叶变换到相同嵌入向量的维度
不同语义特征之间相互正交且不同token之间的编码也不相同
相对位置编码–修饰在注意力分数上面 多头注意力机制 大概就是一个token嵌入向量进去经过多头一个小语义会被学习到更多相似的语义或者更大的跨度最后通过多头相加综合起来相当于学习到相似语义的综合语义
解码器掩码—正则残差
在推理过程需要屏蔽掉之后词语的影响
屏蔽掉一个词之后的注意力分数
正测残差 把数据加起来在正则化
残差能够学习到变化的程度
模型框架 每一个解码器的输出都要拿着解码器的参考去更新差异
推理部分
可能最后的softmax部分的输出是一个形状确实不变都是T X Dout解码器部分提供的是K