郑州网站开发公司哪家好,济南高新网站建设,服装网站建设项目规划书,房产信息查询网优秀的激活函数#xff1a;
非线性#xff1a;激活函数非线性时#xff0c;多层神经网络可逼近所有函数
可微性#xff1a;梯度下降更新参数
单调性#xff1a;当激活函数是单调的#xff0c;能保证单层网络的损失函数是凸函数
近似恒等性#xff1a;当参数初始化为…优秀的激活函数
非线性激活函数非线性时多层神经网络可逼近所有函数
可微性梯度下降更新参数
单调性当激活函数是单调的能保证单层网络的损失函数是凸函数
近似恒等性当参数初始化为随机小值时神经网络更稳定
Sigmoid 特点
1易造成梯度消失0-0.25连续相乘参数无法继续更新
2输出非0均值收敛慢
3幂运算复杂训练时间长
Tanh 特点
1输出是0均值
2易造成梯度消失
3幂运算复杂训练时间长
Relu函数 优点
1解决梯度消失的问题
2只需判断输入是否大于0计算速度快
3收敛速度远快于sigmoid和tanh
缺点
1输出非0均值收敛慢
2Dead Relu 某些神经元可能永远不会被激活导致相应的参数永远不能被更新
Leaky Relu函数 理论上Leaky Relu有Relu的所有优点外加不会有Dead Relu的问题但是在实际操作当中并没有完全证明Leaky Relu总好于Relu。