当前位置: 首页 > news >正文

深圳南山网站建设公司襄阳今天刚刚发生的新闻

深圳南山网站建设公司,襄阳今天刚刚发生的新闻,企业信息系统开发,中国十大装修公司加盟来自JMLR的一篇论文#xff0c;https://www.jmlr.org/papers/volume24/21-1441/21-1441.pdf 这篇文章试图通过分析模型权重矩阵的频谱来解释模型#xff0c;并在此基础上提出了一种用于早停的频谱标准。 1#xff0c;分类难度对权重矩阵谱的影响 1.1 相关研究 在最近针对…来自JMLR的一篇论文https://www.jmlr.org/papers/volume24/21-1441/21-1441.pdf 这篇文章试图通过分析模型权重矩阵的频谱来解释模型并在此基础上提出了一种用于早停的频谱标准。 1分类难度对权重矩阵谱的影响 1.1 相关研究 在最近针对深度模型的可解释性研究中出现了一种流行的方法即对DNNs的各种大型特征随机矩阵进行谱分析所谓大型特征随机矩阵就是例如反向传播算法的Hessian矩阵、不同层之间的权重矩阵以及输出特征的协方差矩阵等。这样的谱分析有助于深入了解DNNs的行为。 1.2  权重矩阵的谱的类型 权重矩阵的谱在训练的最后阶段被分类为三种类型轻尾LT、块过渡期BT和重尾HT。 重尾Heavy Tails、轻尾Light Tails和块过渡Bulk Transition是指权重矩阵或Hessian矩阵的特征值分布的不同类型。区别如下 1重尾分布指的是在特征值分布的尾部存在较大概率密度即存在一些非常大的特征值。在深度学习中重尾可能表明权重矩阵中存在高度相关的条目这可能导致过拟合或模型的泛化能力下降。 2轻尾分布的特征是特征值分布的尾部概率密度较低即特征值普遍较小没有特别大的异常值。在深度学习中轻尾可能表示权重矩阵的正则化较好有助于提高模型的泛化能力。 3块过渡是一种介于重尾和轻尾之间的状态特征值分布的主体块接近Marcenko-Pastur分布但可能存在一些异常的“尖峰”或“离群点”。这种状态可能表明模型正在从过拟合状态重尾过渡到更好的泛化状态轻尾或者是模型训练过程中的一个中间阶段。 1.3 如何计算权重矩阵的谱 对权重矩阵计算其Gram矩阵接着求解Gram矩阵的特征值。接着将计算出的特征值按降序排列以便于分析最大的特征值。最后构建经验谱分布这是一个经验分布函数用于估计权重矩阵特征值的分布。ESD可以通过直方图或核密度估计来实现。 其中I是指示函数当括号内的表达式为真时I的值为1否则为0。 1.4作者的发现 作者发现分类难度是影响权重矩阵谱中出现HT的一个重要因素。分类难度越高HT出现的几率越大。在合成数据集和真实数据集上进行的实验都支持这一发现。特别是降低数据集的信噪比或在高斯数据实验中增加类别数量K都会增加分类难度并在训练结束时产生重尾。在真实数据实验中由于CIFAR10具有更复杂的特征和更高的分类难度因此在CIFAR10的实验中出现重尾的情况比在MNIST的实验中更多。 2基于权重矩阵谱的早停准则 2.1 内容 本文提出的基于谱的早停策略通过分析深度神经网络DNN权重矩阵的谱特性来确定训练过程中的停止时机。 步骤 1)权重矩阵的谱分析这涉及到计算权重矩阵的非零特征值. 2)特征值排序与检测将这些特征值按降序排列并使用算法自动检测特征值中的“尖峰”spikes即那些远离其他特征值的特征值。 3)计算谱准则值也就是计算权重矩阵的谱与Marcenko-Pastur (MP) 定律的偏差。这涉及到构造一个直方图估计器来近似权重矩阵特征值的联合密度并与MP定律的密度函数进行比较。 距离的定义是这样的 其中是ESD的直方图估计公式如下 其中对于一个n×p的随机矩阵其中n/p→cc是一个正常数。是权重矩阵元素的方差。参数 M 通常表示直方图估计中使用的“bins”或“binsize”的数量用于将数据分成多个区间以估计概率密度函数本文设置为。B(x) 表示的是一个函数它将一个实数 x 映射到包含 x 的“bin”或区间。在频谱分析中B(x)可以用于计算每个区间内的点的数量从而估计概率密度函数或特征值分布。 而后一项是MP分布的密度函数公式如下 MP分布可用于描述大随机矩阵特征值的分布。MP定律与DNN的泛化能力有关。接近MP分布的谱可能意味着模型具有较好的泛化能力而偏离MP分布可能指示过拟合或其他问题。 4)设定阈值该值基于L1距离 5)监控训练过程在训练过程中对于每个训练周期计算权重矩阵的谱准则值 6)判断停止时机如果在连续的几个训练周期中谱准则值超过了阈值则认为达到早停条件。 2.2 相较于传统早停策略的优势 1)不需要测试集传统早停依赖于对模型在测试集上的准确率或者loss的测量而本文提出的基于谱分析的早停策略完全不需要测试集。只要分析训练集上的权重矩阵的谱就可以了 2适应性强因为是依靠权重矩阵的谱分析而不是测试集所以数据类型或者数据集组成结构等影响较小 3鲁棒性更强实验证明即使训练准确率还在上升本方法依然能实现早停。
http://www.hkea.cn/news/14509826/

相关文章:

  • 中国工信备案查询网站wordpress 自定义类型
  • 东莞网站建设乐云seo37网页游戏平台官网
  • 百度站长网站文件验证江苏华建建设股份有限公司网站
  • 开发公司送物业费的协议seo行业
  • 活动策划网站源码建站公司都有哪些
  • 体验比较好的网站建造个网站花多少钱
  • 福州高端网站定制网站设计的内容以及步骤
  • 广告型网站怎么做的淘宝网页版登陆
  • 网站查询服务器微信公众号怎么做预约功能
  • 菠菜导航网站可以做golang建设网站
  • 怎样建立网站有哪些流程wordpress悬浮输入框
  • 网站前端怎么做方法濮阳新闻综合频道网站
  • 有了域名公司网站怎么建设创建网站的步骤
  • 无锡做网站365caiyi住房和城乡建设部的叉车证能用吗
  • 做本地网站赚钱吗php可视化网站开发工具
  • 网站设计服务做招聘网站需要哪些手续
  • 设计 微网站个人作品展示网站
  • php网站开发用什么软件百度个人网站申请
  • 有没有专门搞网站上线的公司妇幼医院网站建设方案
  • 七彩建设集团官方网站管理培训公司
  • 自己做网站 如何推广个人风采网站制作
  • 苏州市住房和城乡建设局网站台州市住房和城乡建设厅网站
  • 张槎网站开发大数据网站开发工程师
  • 阳江网站建设推广安微省建设厅网站
  • 给人做传销网站哈尔滨seo优化客户
  • 拖拽式制作网站做网站都需要什么步骤
  • 提供网站建设报价做网站大概需要多少钱
  • 网站设置关键词学历提升专升本
  • 网站重构营销一型网站建设公司
  • 烟台市建设工程交易中心网站网页设计与制作心得体会800字