当前位置：首页 > news >正文

福田网站优化永久免费随身wifi

news 2026/4/28 21:17:02

福田网站优化,永久免费随身wifi,舟山市住房和城乡建设局网站,怎样注册网站做销售一、Swish 函数 Swish 函数是一种较新的激活函数#xff0c;由 Ramachandran 等人在 2017 年提出#xff0c;其数学表达式通常为其中 σ(x) 是 Sigmoid 函数#xff08;Logistic 函数#xff09;。如何理解 Swish 函数自门控特性 Swish 函数可以看作是对输入 x 进行“…一、Swish 函数 Swish 函数是一种较新的激活函数由 Ramachandran 等人在 2017 年提出其数学表达式通常为其中 σ(x) 是 Sigmoid 函数Logistic 函数。如何理解 Swish 函数自门控特性 Swish 函数可以看作是对输入 x 进行“自门控”的机制输入 x 乘以其经过 Sigmoid 函数的值相当于让 x 自己决定通过的比例。当 x 较大时σ(x) 趋近于1此时 Swish 函数近似为 x当 x 较小时σ(x) 会使 x 被适当缩放从而调整激活值。平滑与非单调性 Swish 函数是一条平滑、连续且处处可微的曲线。与 ReLU 等激活函数相比它没有突然的断点。同时Swish 函数是非单调的即在某些区间内函数值可能先增加后减少这种非单调性有时能够让网络学习到更复杂的特征表示。改进训练效果研究表明在某些深度学习任务中使用 Swish 作为激活函数可以比使用 ReLU 带来更好的训练性能和泛化效果。这种性能提升可能归因于其平滑和非单调的特性使得梯度传播更加稳定降低梯度消失或爆炸的风险参考下面对应的解释。扩展形式 Swish 函数有一个扩展形式 Swish(x)x⋅σ(βx), 其中 β是一个可调参数甚至可以作为可学习参数。不同的 β值会影响激活函数在负区间和正区间的斜率从而让模型更灵活地适应不同的数据分布。其中 (⋅) 为 Logistic 函数为可学习的参数或一个固定超参数。(⋅) ∈ (0, 1) 可以看作一种软性的门控机制。当 () 接近于 1 时门处于“开”状态激活函数的输出近似于本身当 () 接近于 0 时门的状态为“关”激活函数的输出近似于0。 Swish 函数的图示如下当 0时Swish函数变成线性函数/2 当 1时Swish函数在 0 时近似线性在 0时近似饱和同时具有一定的非单调性当 → ∞时() 趋向于离散的 0-1 函数Swish 函数近似为 ReLU 函数。因此Swish 函数可以看作线性函数和 ReLU 函数之间的非线性插值函数其程度由参数控制。举例说明例子比较 Swish 与 ReLU 在激活上的差异假设某神经元计算出的线性组合 x 为 -2, -1, 0, 1, 2。 ReLU 的输出当 x -2 或 -1 时输出0当 x 0 时输出0当 x 1 时输出1当 x 2 时输出2。 Swish 的输出假设 β1 当 x -2 时σ(−2)≈0.12输出 −2×0.12≈−0.24当 x -1 时σ(−1)≈0.27输出 −1×0.27≈−0.27当 x 0 时σ(0)0.5输出 0×0.50当 x 1 时σ(1)≈0.73输出 1×0.73≈0.731当 x 2 时σ(2)≈0.88输出 2×0.88≈1.762 。从上面可以看出与 ReLU 相比Swish 函数在负数区域并不是完全为0而是保留了负值尽管较小而在正数区域输出接近于线性。这样的行为使得网络在训练过程中能保留更多信息梯度传播更平滑。 Swish 函数将输入 x 与 Sigmoid 函数 σ(x) 的输出相乘实现了一个平滑且非单调的激活函数。这种设计不仅允许网络在负区域保留部分信息还提供了平滑的梯度有助于稳定训练过程并提高模型的泛化能力。其扩展形式中引入的参数 β 进一步增强了模型适应数据的灵活性。梯度消失或爆炸的风险梯度消失Vanishing Gradient和梯度爆炸Exploding Gradient是深度神经网络训练中常见的两大问题主要与反向传播过程中的梯度计算方式链式法则有关。它们会导致模型无法有效学习或训练不稳定。以下是它们的定义、原因及影响 1. 梯度消失Vanishing Gradient 定义在反向传播过程中梯度损失函数对参数的导数逐层传递时逐渐减小甚至趋近于零导致浅层网络的权重几乎无法更新。原因链式法则的连乘效应梯度通过反向传播逐层计算时每一层的梯度都会被前一层的梯度相乘。如果每层的梯度值小于1多次连乘后会指数级趋近于零。激活函数的选择例如 Sigmoid 或 Tanh 函数在输入较大时导数接近零饱和区导致梯度消失。后果浅层网络参数几乎不更新模型无法学习底层特征。模型收敛缓慢或完全停止训练性能显著下降。 2. 梯度爆炸Exploding Gradient 定义梯度在反向传播过程中逐层增大最终导致权重更新幅度过大甚至数值溢出如 NaN。原因链式法则的连乘效应如果每层的梯度值大于1多次连乘后会指数级增长。权重初始化不当例如初始权重过大或网络层数过深。后果参数更新不稳定损失剧烈震荡甚至发散。权重值变为 NaN训练完全失败。 3. 为什么梯度问题危害大深层网络更脆弱网络层数越多梯度连乘的效应越明显问题越严重。影响模型表达能力梯度消失导致浅层无法学习深层网络退化为浅层网络。训练效率低下需要更复杂的调参如学习率调整或更长的训练时间。 4. 常见解决方案激活函数改进使用 ReLU、Leaky ReLU 等非饱和激活函数避免梯度消失。权重初始化使用 Xavier初始化或 He初始化根据激活函数调整初始权重的分布。归一化技术批量归一化Batch Normalization缓解梯度对参数尺度的依赖。残差结构ResNet 通过跳跃连接Skip Connection绕过梯度消失的层直接传递梯度。梯度裁剪Gradient Clipping 对过大的梯度设定阈值防止梯度爆炸常用于RNN。优化算法使用 Adam、RMSProp 等自适应优化器动态调整学习率。网络结构设计在RNN中使用 LSTM 或 GRU通过门控机制缓解梯度问题。 5.示例说明梯度消失一个10层的全连接网络使用 Sigmoid 激活函数反向传播时梯度可能在第5层之后趋近于零导致前5层无法更新。梯度爆炸一个未做梯度裁剪的RNN模型在长序列训练时梯度可能迅速增大导致参数溢出。二、GELU 函数 GELU(Gaussian Error Linear Unit高斯误差线性单元)也是一种通过门控机制来调整其输出值的激活函数和 Swish 函数比较类似。 GELUGaussian Error Linear Unit正态误差线性单元是一种激活函数它将输入值 x 与 x 取正态累积分布函数CDF的值相乘从而实现非线性变换。其数学表达式通常写为其中Φ(x) 是标准正态分布的累积分布函数表示一个标准正态随机变量小于 x 的概率。 , 为超参数一般设 0, 1 即可。由于高斯分布的累积分布函数为 S 型函数因此 GELU 函数可以用 Tanh 函数或 Logistic 函数来近似为了便于计算实际应用中常使用以下近似公式或 GELU() ≈ (1.702). 当使用 Logistic 函数来近似时GELU 相当于一种特殊的 Swish 函数。参考下面第三部分概率密度函数和累积分布函数的概念如何理解 GELU 函数概率视角 GELU 函数的核心思想是“概率性激活”将输入 x 与其“被激活”的概率由正态累积分布 Φ(x) 表示相乘。这意味着一个神经元的激活不仅依赖于输入的大小还依赖于该输入在统计意义上有多大可能被视为“正向贡献”。平滑性和非线性与 ReLU 相比GELU 是一种平滑且处处可微的函数没有硬性截断从而有助于梯度更平稳地传递降低梯度消失的风险。同时GELU 是非单调的在某些区间内可能出现非单调性这种特性使得网络可以捕捉更复杂的模式。实际应用中的优势在许多自然语言处理和计算机视觉任务中GELU 函数表现出比 ReLU 更好的性能。例如BERT 和其他 Transformer 模型中就使用了 GELU 作为激活函数因为它能更细腻地调节信息流。举例说明例子Transformer 中的 GELU 在 Transformer 模型中隐藏层通常使用 GELU 激活函数来处理输入。假设某层神经元计算得到一个值 x 当 x 较大时Φ(x) 接近于1因此 GELU 输出近似于 x当 x 较小或为负时Φ(x) 会相应较小从而使输出趋于较小的值或接近于0。这种设计允许模型在处理不同尺度的输入时能根据统计概率自动调节激活程度从而捕捉更多细微特征提高模型的表现。 GELU 函数通过将输入与正态累积分布的概率相乘实现了一种基于概率视角的平滑激活机制。它既能保留输入的线性特性又能通过平滑非线性变换提供更稳定的梯度传递和更强的表达能力这使得它在现代深度学习模型中如 Transformer得到广泛应用。三、附加概率密度函数、累积分布函数的区别和联系概率密度函数PDF和累积分布函数CDF是描述随机变量分布的重要工具它们既有区别又密切相关区别定义不同概率密度函数PDF 适用于连续随机变量。它描述了随机变量在某个取值附近出现的“相对可能性”。注意单个点的 PDF 值本身不是概率必须通过积分计算某个区间内的概率。例如对于连续随机变量 X其 PDF 表示为 f(x)某个区间 [a, b] 内的概率为累积分布函数CDF 表示随机变量小于或等于某个特定值的概率。对于随机变量 X其 CDF 表示为 F(x)定义为 CDF 对于连续和离散随机变量都适用且其取值范围在 [0, 1]。数值与物理意义 PDF 描述的是相对密度给出的是“密度”而不是直接的概率值。比如f(x) 的值可能大于1但只要积分结果在某个区间内小于1就表示该区间内的概率。 CDF 直接反映概率。它是一个从 −∞到 ∞单调非减的函数且满足 F(−∞)0 和 F(∞)1。联系数学关系对于连续随机变量CDF 和 PDF 之间存在密切联系积分关系 CDF 是 PDF 的积分即微分关系如果 CDF F(x) 在 x 处可导那么其导数就是 PDF 用途上的互补使用 PDF我们可以分析随机变量在某个区间的“密度”或“强度”并通过积分得到区间概率。使用 CDF我们可以直接了解随机变量在某个值以下的累积概率这在统计推断和概率计算中非常直接和方便。举例说明例子标准正态分布从这个例子可以看出CDF 给出了累积概率而 PDF 则描述了概率“分布的浓度”。总结概率密度函数PDF描述连续随机变量在各个点附近的相对概率密度需要通过积分才能得到具体区间的概率。累积分布函数CDF直接表示随机变量小于或等于某个值的累计概率具有直观的概率意义并且可以通过积分或求导与 PDF 互相转换。理解这两者的区别和联系对于掌握概率分布、进行概率计算以及进行统计推断非常重要。

查看全文

http://www.hkea.cn/news/14453151/