当前位置: 首页 > news >正文

网站建设学校怎么查询公司名字是否可以注册

网站建设学校,怎么查询公司名字是否可以注册,会展设计说明,网站验收在Self-Attention机制中#xff0c;为什么需要对 Q K T QK^T QKT 的结果进行缩放#xff0c;除以 d k \sqrt{d_k} dk​ ​。以下是详细解释#xff1a; 缩放的原因 除以 d k \sqrt{d_k} dk​ ​ 的原因有两个#xff1a; 防止输入过大#xff1a;如果不缩放#xf…在Self-Attention机制中为什么需要对 Q K T QK^T QKT 的结果进行缩放除以 d k \sqrt{d_k} dk​ ​。以下是详细解释 缩放的原因 除以 d k \sqrt{d_k} dk​ ​ 的原因有两个 防止输入过大如果不缩放 Q K T QK^T QKT的值可能会非常大这会导致Softmax的值非常小接近于0从而造成梯度消失问题。归一化缩放使得 Q ⋅ K Q\cdot K Q⋅K 的结果满足均值为0方差为1的分布类似于归一化的效果。 数学推导 假设 Q Q Q和 K K K中的元素是从均值为0方差为1的独立同分布随机变量。设 X q i X q_i Xqi​和 Y k i Y k_i Yki​则 E ( X ) E ( Y ) 0 E(X) E(Y) 0 E(X)E(Y)0 D ( X Y ) E ( X 2 ) E ( Y 2 ) − [ E ( X ) E ( Y ) ] 2 1 ⋅ 1 − 0 1 D(XY) E(X^2)E(Y^2) - [E(X)E(Y)]^2 1 \cdot 1 - 0 1 D(XY)E(X2)E(Y2)−[E(X)E(Y)]21⋅1−01 因此 D ( ∑ i 1 d k q i k i ) d k D\left(\sum_{i1}^{d_k} q_i k_i\right) d_k D(∑i1dk​​qi​ki​)dk​。 对 Q K T QK^T QKT 的缩放 D ( Q K T d k ) 1 d k D ( ∑ i 1 d k q i k i ) 1 d k ⋅ d k 1 D\left(\frac{QK^T}{\sqrt{d_k}}\right) \frac{1}{d_k} D\left(\sum_{i1}^{d_k} q_i k_i\right) \frac{1}{d_k} \cdot d_k 1 D(dk​ ​QKT​)dk​1​D(∑i1dk​​qi​ki​)dk​1​⋅dk​1 好的让我们通过一个具体的例子来说明 (d_k) 的作用以及为什么要除以 (\sqrt{d_k})。 假设我们有一个查询向量 q \mathbf{q} q 和一个键向量 k \mathbf{k} k它们的维度 d k 4 d_k 4 dk​4。这些向量的元素是均值为0、方差为1的独立同分布随机变量。我们具体来看下这两个向量的点积结果以及缩放后的结果。 假设 q [ 1.2 , − 0.5 , 0.3 , 0.8 ] \mathbf{q} [1.2, -0.5, 0.3, 0.8] q[1.2,−0.5,0.3,0.8] k [ 0.6 , − 0.1 , − 1.5 , 0.7 ] \mathbf{k} [0.6, -0.1, -1.5, 0.7] k[0.6,−0.1,−1.5,0.7] 计算点积 q ⋅ k 1.2 × 0.6 ( − 0.5 ) × ( − 0.1 ) 0.3 × ( − 1.5 ) 0.8 × 0.7 \mathbf{q} \cdot \mathbf{k} 1.2 \times 0.6 (-0.5) \times (-0.1) 0.3 \times (-1.5) 0.8 \times 0.7 q⋅k1.2×0.6(−0.5)×(−0.1)0.3×(−1.5)0.8×0.7 0.72 0.05 − 0.45 0.56 0.72 0.05 - 0.45 0.56 0.720.05−0.450.56 0.88 0.88 0.88 不进行缩放时这个点积结果直接用于Softmax计算。但是当 (d_k) 很大时这个值可能会非常大导致Softmax输出非常尖锐。为了避免这种情况我们将点积结果除以 (\sqrt{d_k}) 来进行缩放。 在本例中 d k 4 d_k 4 dk​4因此 d k 2 \sqrt{d_k} 2 dk​ ​2。 缩放后的点积结果 q ⋅ k d k 0.88 2 0.44 \frac{\mathbf{q} \cdot \mathbf{k}}{\sqrt{d_k}} \frac{0.88}{2} 0.44 dk​ ​q⋅k​20.88​0.44 现在我们来比较一下经过Softmax之前的值和经过缩放后的值在Softmax函数中的效果 假设有另外两个查询向量和键向量的点积结果分别为2.0和0.5计算Softmax之前和之后的值。 不缩放时的点积结果 未缩放的点积值 [ 0.88 , 2.0 , 0.5 ] \text{未缩放的点积值} [0.88, 2.0, 0.5] 未缩放的点积值[0.88,2.0,0.5] Softmax计算 Softmax ( 0.88 , 2.0 , 0.5 ) [ e 0.88 e 0.88 e 2.0 e 0.5 , e 2.0 e 0.88 e 2.0 e 0.5 , e 0.5 e 0.88 e 2.0 e 0.5 ] \text{Softmax}(0.88, 2.0, 0.5) \left[ \frac{e^{0.88}}{e^{0.88} e^{2.0} e^{0.5}}, \frac{e^{2.0}}{e^{0.88} e^{2.0} e^{0.5}}, \frac{e^{0.5}}{e^{0.88} e^{2.0} e^{0.5}} \right] Softmax(0.88,2.0,0.5)[e0.88e2.0e0.5e0.88​,e0.88e2.0e0.5e2.0​,e0.88e2.0e0.5e0.5​] ≈ [ 0.184 , 0.643 , 0.173 ] \approx [0.184, 0.643, 0.173] ≈[0.184,0.643,0.173] 缩放后的点积结果 缩放的点积值 [ 0.44 , 1.0 , 0.25 ] \text{缩放的点积值} [0.44, 1.0, 0.25] 缩放的点积值[0.44,1.0,0.25] Softmax计算 Softmax ( 0.44 , 1.0 , 0.25 ) [ e 0.44 e 0.44 e 1.0 e 0.25 , e 1.0 e 0.44 e 1.0 e 0.25 , e 0.25 e 0.44 e 1.0 e 0.25 ] \text{Softmax}(0.44, 1.0, 0.25) \left[ \frac{e^{0.44}}{e^{0.44} e^{1.0} e^{0.25}}, \frac{e^{1.0}}{e^{0.44} e^{1.0} e^{0.25}}, \frac{e^{0.25}}{e^{0.44} e^{1.0} e^{0.25}} \right] Softmax(0.44,1.0,0.25)[e0.44e1.0e0.25e0.44​,e0.44e1.0e0.25e1.0​,e0.44e1.0e0.25e0.25​] ≈ [ 0.272 , 0.459 , 0.269 ] \approx [0.272, 0.459, 0.269] ≈[0.272,0.459,0.269] 可以看到经过缩放后Softmax的输出分布更加平滑不再像未缩放前那样有较大的差异这有助于梯度的稳定性和模型的训练效果。 通过这个例子我们可以清楚地看到为什么在自注意力机制中对点积结果进行缩放是必要的这样可以防止数值过大导致的问题并且让Softmax的输出更为合理。 结论 通过上述推导我们可以看到 对 (QK^T) 进行缩放使其满足均值为0方差为1的分布。这样处理后的值更加稳定输入到Softmax函数后可以避免梯度消失问题。 综合解释 为什么要缩放缩放可以防止输入到Softmax的值过大导致梯度消失同时使得分布更稳定。缩放因子 d k \sqrt{d_k} dk​ ​因为键向量 K K K 的维度为 d k d_k dk​在计算点积时需要对结果进行缩放使其方差为1保持稳定性。 通过对这些细节的处理Self-Attention机制能够在训练和推理过程中保持数值稳定性和计算效率。
http://www.hkea.cn/news/14421395/

相关文章:

  • 网页制作软件dw还需要什么什么是seo和sem有什么区别
  • 建设视频网站要求吗网页设计师就业现状
  • 找人做网站多少钱商城网站制作明细
  • 做的网站适应屏幕大小广州市建设交易中心
  • 辽阳网站推广企业文化馆展厅设计
  • 怎么做能打不开漫画网站网站推广公司哪
  • 长沙网站建设设计宁波网站关键词
  • 青海军区战备建设局网站网站登录密码忘记
  • 织梦电影网站模板下载怎样做公司网站介绍
  • eclipse 网站开发学习免费下载app软件下载安装到手机
  • 代做百度首页排名价格山东网络推广优化排名
  • 商务局网站建设方案网站建设合同 附件
  • 深圳网站建设新闻网站建设捌金手指花总八
  • 如何海外网站建设怎么关闭seo综合查询
  • 个人网站制作模板响应式wordpress 浏览数
  • 什么是网站的根目录汝南县网站建设
  • 网站建设硬件开支做购物网站小图标
  • 传奇怎么建设自己的网站建立网站需要多少钱怎么样
  • 南通网站建设方案开发中企动力科技股份有限公司重庆分公司
  • 网站建设哈尔滨网站项目开发流程及规范
  • 014最新电影网站源码程序|自动采集|一键采集|静态生成|联盟利器做视频搬运工的网站
  • 网站sem怎么做h5页面制作案例
  • 盛泽做网站开发流程和步骤
  • 网站必须做可信认证wordpress好用的文件管理
  • html5可不可以建设手机网站深圳网站开发多少钱
  • vs做网站创建项目时选哪个网站有冒号怎么打开
  • 青岛国家高新区建设局网站网站搭建工具
  • 宠物网站建设策划报告沈阳做网站直播的公司
  • 网站怎样做国人wordpress企业主题
  • 传统网站和手机网站的区别wordpress固定链接 404