当前位置: 首页 > news >正文

别人盗用我的网站备案号怎么办中山网站建设设计

别人盗用我的网站备案号怎么办,中山网站建设设计,犀牛云做网站怎么样,网页免费下载最近做剪枝学习#xff0c;其中一种是基于BN层的γ作为缩放因子进行剪枝的#xff0c;那么我想搞懂BN的工作原理更好的理解网络、剪枝等#xff0c;所以有了该文。 首先先说BN的作用在详细拆解#xff0c;理解。以知乎一条高赞评论说明BN层到底在干什么。 Batch Norm 为什… 最近做剪枝学习其中一种是基于BN层的γ作为缩放因子进行剪枝的那么我想搞懂BN的工作原理更好的理解网络、剪枝等所以有了该文。 首先先说BN的作用在详细拆解理解。以知乎一条高赞评论说明BN层到底在干什么。 Batch Norm 为什么有效 内部协变量偏移Internal Covariate Shift 其反映的问题就是源域与目标域存在偏差。在深度神经网络的训练过程中随着网络层数的增加前一层输出的分布会发生变化这种变化通常会使得下一层的输入分布发生偏移导致训练过程中的梯度下降变得不稳定从而影响模型的收敛速度和性能。这种现象被称为“内部协变量偏移”。 内部协变量偏移使得网络在训练时需要不断适应新的输入分布这会消耗大量的计算资源并延长训练时间。而Batch NormalizationBN层正是针对这一问题提出的解决方案。BN的核心思想是对每一层的输入进行归一化使其均值为0方差为1从而减小输入数据的分布变化使得网络在训练过程中能够更加稳定和高效地学习。 这就是协变量偏移的问题 — 模型输入的数据与之前训练的数据分布非常不同 — 即使新数据仍然符合相同的目标函数。 损失和梯度平滑 麻省理工学者质疑了解决协变量偏移是 Batch Norm 性能的原因的说法论文BN有效的本质原因在于其能够使优化空间optimization landscape变得平滑,其他的Normalization方法例如L1L2L无穷大也可以起到和BN一样的效果该论文提出Batch Norm 所做的是通过改变网络权重的分布来大幅平滑损失情况。这意味着 gradient descent 可以自信地朝着某个方向迈出一步因为它知道它不会在途中发现突然的中断。因此它可以通过使用更大的学习率来采取更大的步骤。 Batch Normalization 的原理 BN 层的核心操作是在每一层的输入上进行归一化处理。具体来说BN会对每一批次mini-batch的输入进行均值和方差的计算然后使用这些统计量对输入进行归一化。归一化后的数据会被乘以一个可学习的缩放参数gamma并加上一个可学习的偏移参数beta。通过这种方式BN不仅对输入进行了标准化处理还通过学习到的参数对其进行了适当的尺度和位置调整使得网络能够适应不同的数据分布。 数学上BN操作可以表示为 计算当前mini-batch所有样本的均值计算当前mini-batch所有样本的方差对当前mini-batch内每个样本用前面的均值和方差做归一化对归一化后的样本乘以一个缩放系数再做一次平移 可学习缩放参数γ、可学习偏移参数β 是一个缩放因子它对标准化后的数据进行线性变换控制了数据的尺度。通过学习网络能够自动调整每一层输出的方差大小以适应不同的数据分布。这是一个偏移因子它对标准化后的数据加上一个常数控制了数据的均值。通过学习网络能够调整每一层输出的均值使其更适合特定任务的需求 。参数由网络学习得到 每个 Batch Norm 层都能够以最佳方式找到适合自己的最佳因子因此可以移动和缩放归一化值以获得最佳预测对标准化后的数据进行缩放和偏移。这一步骤是在标准化之后进行的目的是使得网络能够恢复标准化过程中可能丢失的特征避免标准化导致模型表达能力的下降对一些重要的通道会学习到较大的γ值不重要的通道会学到接近于0的γ值我认为这可能是另一篇网络剪枝论文的理论基础。 Batch Norm 的作用 Batch Norm 帮助模型更快地收敛并加快训练速度。它使训练对权重的初始化方式和超参数的精确调整不太敏感。 Batch Norm 可以使用更高的学习率。如果没有 Batch Norm学习率必须保持较小以防止较大的异常值梯度影响梯度下降。Batch Norm 有助于减少这些异常值的影响。 Batch Norm还减少了梯度对初始权重值的依赖性。由于权重是随机初始化的因此训练早期阶段的异常值权重值可能会扭曲梯度。因此网络收敛需要更长的时间。Batch Norm 有助于抑制这些异常值的影响。 提高模型的泛化能力正则化作用在一定程度上起到了正则化的作用减少了过拟合的风险。由于每一批次的统计量是基于当前批次数据计算的这种变化引入了微小的噪声有助于提高模型的泛化能力。 标准化输入数据减少内部协方差偏移 BN通过使每一层的激活值在训练过程中保持稳定避免了大幅度的梯度波动从而提高了网络训练的稳定性。每一层的输入分布在训练过程中几乎不变有助于减少训练过程中梯度的剧烈波动。 Batch Norm 何时不适用 Batch Norm 不适用于较小的批量。这会导致每个小批量的均值和方差中出现过多的噪声。有人提出的Group Normalization等方法可以改善这些问题 Batch Norm 不用于循环网络。每个时间步之后的激活具有不同的分布因此对其应用 Batch Norm 是不切实际的。但提出的Layer Normalization等方法也可以适用于循环网络 总结 本文主要参考了 部分内容翻译自Batch Norm Explained Visually — Why does it work?部分图像来自BN原理分析
http://www.hkea.cn/news/14459110/

相关文章:

  • 网站规划与开发技术属于什么大类做搞笑图片的网站
  • 旅游网站模板htmlwordpress如何使用一个demo
  • 咸阳网站建设价格深圳房地产信息网官方网站
  • 广东建设厅的网站查询余姚网站建设服务
  • wordpress管理员头像成都网站建设优化前十
  • 人才网站建站做公司网站要学会什么
  • 网站一般的后台四川城乡建设网站首页
  • 做网站用什么软件免费房地产网站设计方案
  • 神马网站排名临沂购买模板建站
  • 设计网站数据wordpress速度优化
  • 网站建设费汇算清缴课外辅导东莞网站建设技术支持
  • 南宁自助建站模板下载深圳在哪些网站上面做推广
  • 泉州建设培训中心网站做网站怎么开发客户
  • 上海公司注销seo工资
  • 做网站多少费用更换网站程序
  • 做介绍美食网站的菜单的官方百度
  • 深圳社区网站开发公司网站颜色搭配
  • 广西南宁网站推广做ar的网站
  • 景德镇网站建设景德镇做百度收录比较好的网站
  • 设计一个网站的步骤网页打不开视频
  • 帝国cms怎么做音乐网站福州鼓楼区建设局网站
  • 商务网站建设联系方式编程软件下载手机版
  • 淘宝网站是谁做的好处平面设计很难学吗
  • 建设通和天眼查网站注册推广赚钱一个30元
  • 三艺网站建设自己要注册商标去哪注册
  • 南宁网页制作招聘网seo黑帽是什么
  • 建设公司网站的好处保亭交通工程建设局网站
  • 国外设计网站pinterest极速版免费虚拟主机空间互联
  • 如何查一个网站有没有做外链电子商务网站建设需要多少钱
  • 做非洲国际贸易网站wordpress全站采集