当前位置: 首页 > news >正文

企业宣传模板图片上海seo推广整站

企业宣传模板图片,上海seo推广整站,基本信息型网站有哪些,营销比较成功的品牌机器学习面经系列的其他部分如下所示#xff1a; 机器学习-面经#xff08;part1#xff09; 机器学习-面经(part2)-交叉验证、超参数优化、评价指标等内容 机器学习-面经(part3)-正则化、特征工程面试问题与解答合集机器学习-面经(part4)-决策树共5000字的面试问题与解答… 机器学习面经系列的其他部分如下所示 机器学习-面经part1 机器学习-面经(part2)-交叉验证、超参数优化、评价指标等内容 机器学习-面经(part3)-正则化、特征工程面试问题与解答合集机器学习-面经(part4)-决策树共5000字的面试问题与解答 机器学习-面经(part5)-KNN以及SVM等共二十多个问题及解答 机器学习-面经(part6)-集成学习(万字解答) 11 无监督学习 11.1 聚类 原理对大量未知标注的数据集按数据的内在相似性将数据集划分为多个类别使类别内的数据相似度较大而类别间的数据相似度较小。 聚类的应用场景: 求职信息完善有大约10万份优质简历其中部分简历包含完整的字段部分简历在学历公司规模薪水等字段有些置空顶。希望对数据进行学习编码与测试挖掘出职位路径的走向与规律形成算法模型在对数据中置空的信息进行预测。 11.1.1 K-means 定义也叫K均值或K平均。通过迭代的方式每次迭代都将数据集中的各个点划分到距离它最近的簇内这里的距离即数据点到簇中心的距离。 K-means步骤 1.随机初始化K个簇中心坐标 2.计算数据集内所有点到K个簇中心的距离并将数据点划分近最近的簇 3.更新簇中心坐标为当前簇内节点的坐标平均值 4.重复2、3步骤直到簇中心坐标不再改变收敛了      11.1.1.1 K值的如何选取 K-means算法要求事先知道数据集能分为几群主要有两种方法定义K。 elbow method通过绘制K和损失函数的关系图选拐点处的K值。 经验选取人工据经验先定几个K多次随机初始化中心选经验上最适合的。 通常都是以经验选取因为实际操作中拐点不明显且elbow method效率不高。 11.1.1.2 K-means算法中初始点的选择对最终结果的影响 K-means选择的初始点不同获得的最终分类结果也可能不同随机选择的中心会导致K-means陷入局部最优解。解决方案包括多次运行算法每次用不同的初始聚类中心或使用全局优化算法。 11.1.1.3 K-means不适用哪些数据 1.数据特征极强相关的数据集因为会很难收敛损失函数是非凸函数一般要用Kernal K-means将数据点映射到更高维度再分群。 2.数据集可分出来的簇密度不一或有很多离群值outliers这时候考虑使用密度聚类。 11.1.1.4 K-means 中常用的距离度量 K-means中比较常用的距离度量是欧几里得距离和余弦相似度。 n维空间的欧几里得距离 余弦相似度余弦相似度是指两个向量夹角的余弦。两个方向完全相同的向量的余弦相似度为1而两个彼此相对的向量的余弦相似度为-1 K-means是否会一直陷入选择质心的循环停不下来为什么迭代次数后会收敛 从K-means的第三步我们可以看出每回迭代都会用簇内点的平均值去更新簇中心所以最终簇内的平方误差和SSE, sum of squared error一定最小。  11.1.1.5 为什么在计算K-means之前要将数据点在各维度上归一化 因为数据点各维度的量级不同例如最近正好做完基于RFM模型的会员分群每个会员分别有R最近一次购买距今的时长、F来店消费的频率和M购买金额。如果这是一家奢侈品商店你会发现M的量级可能几万元远大于F可能平均10次以下如果不归一化就算K-means相当于F这个特征完全无效。如果我希望能把常客与其他顾客区别开来不归一化就做不到。 11.1.1.6 聚类和分类区别 目的不同。聚类是一种无监督学习方法目的是将数据对象自动分成不同的组或簇这些簇是自然存在的而不是人为定义的。分类则是一种监督学习方法目的是根据已知的数据标签将新的数据对象分配到不同的类别中。 监督性不同。聚类不需要人工标注和预先训练分类器类别在聚类的过程中自动生成。分类事先定义好类别类别数不变分类器需要由人工标注的分类训练语料训练得到。结果性质不同。聚类结果是簇或类这些簇或类是自然存在的而不是人为定义的。分类结果是类别标签这些类别标签是人为定义的。应用场景不同。聚类适合于类别数不确定或不存在的场合如市场细分、文本分类等。分类适合于类别或分类体系已经确定的场合如邮件过滤、信用卡欺诈检测等。 算法复杂性不同。聚类算法通常比分类算法简单因为聚类不需要预测新的数据点所属的类别。 结果解释不同。聚类分析的结果通常用于描述数据衡量不同数据源间的相似性以及把数据源分类到不同的簇中。分类分析的结果用于预测新的数据点所属的类别。 最大的不同在于分类的目标是事先已知的而聚类则不一样聚类事先不知道目标变量是什么类别没有像分类那样被预先定义出来。 11.1.2 Kmeans Vs KNN 11.2 降维 定义把一个多因素问题转化成一个较少因素(降低问题的维数)问题而且较容易进行合理安排找到最优点或近似最优点以期达到满意的试验结果的方法。 11.2.1 主成分分析 PCA降维的原理: 无监督的降维(无类别信息)--选择方差大的方向投影,方差越大所含的信息量越大,信息损失越少.可用于特征提取和特征选择。 PCA的计算过程 去平均值即每一位特征减去各自的平均值计算协方差矩阵计算协方差矩阵的特征值与特征向量用(SVDSVD比直接特征值分解计算量小对特征值从大到小排序保留最大的个特征向量将数据转换到个特征向量构建的新空间中 PCA推导 中心化后的数据在第一主轴u1方向上分布散的最开也就是说在u1方向上的投影的绝对值之和最大即方差最大计算投影的方法就是将x与u1做内积由于只需要求u1的方向所以设u1是单位向量。 11.2.1.1 PCA其优化目标是什么 最大化投影后方差 最小化到超平面距离 11.2.1.2 PCA 白化是什么 通过 pca 投影以后消除了特征之间的相关性在各个坐标上除以方差方差归一化。 11.2.1.3 SVD奇异值分解 定义有一个m×n的实数矩阵A我们想要把它分解成如下的形式 其中U和V均为单位正交阵即有和U称为左奇异矩阵V称为右奇异矩阵Σ仅在主对角线上有值称它为奇异值其它元素均为0。上面矩阵的维度分别为。 11.2.1.4 为什么要用SVD进行降维 1. 内存少奇异值分解矩阵中奇异值从大到小的顺序减小的特别快前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上。 2.SVD可以获取另一个方向上的主成分而基于特征值分解的只能获得单个方向上的主成分。 3.数值稳定性通过SVD可以得到PCA相同的结果但是SVD通常比直接使用PCA更稳定。PCA需要计算XTX的值对于某些矩阵求协方差时很可能会丢失一些精度。 11.2.2 LDA(线性判别式分析) LDA降维的原理:LDA一种有监督的降维算法,它是将高维数据投影到低维上,并且要求投影后的数据具有较好的分类.(也就是说同一类的数据要去尽量的投影到同一个簇中去)投影后的类别内的方差小,类别间的方差较大. 理解: 数据投影在低维度空间后投影点尽可能的接近而不同类别的投影点群集的中心点彼此之间的离得尽可能大。 11.2.3 PCA vs SVD 11.2.4 LDA vs PCA  11.2.5  降维的作用是什么 ①降维可以缓解维度灾难问题 ②降维可以在压缩数据的同时让信息损失最小化 ③理解几百个维度的数据结构很困难两三个维度的数据通过可视化更容易理解 11.2.6 矩阵的特征值和特征向量的物理意义是什么 对于一个非方阵的矩阵A它代表一个多维空间里的多个数据。求这个矩阵A的协方差阵Cov(A,A’)得到一个方阵B求的特征值就是求B的特征值它就是代表矩阵A的那些数据在那个多维空间中各个方向上分散的一个度量即理解为它们在各个方向上的特征是否明显特征值越大则越分散也就是特征越明显而对应的特征向量是它们对应的各个方向。 协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况即当两个变量是相同的情况。 11.2.7 维度灾难是什么为什么要关心它‍ 维度灾难的一个主要后果是使分类器过拟合其次使得样本在搜索空间解释目前本人将搜索空间理解为样本特征空间的分布变得不均匀。在特征数增加到一定数量后继续添加新的特征会导致分类器的性能下降这种现象称为“维度灾难”The Curse of Dimensionality。 解决方法 降维算法将高维数据转换为低维数据并保留数据的关键信息如PCA、LDA、MDS 特征选择从原始数据中选取最具代表性的特征并保留相对较少的特征如卡方检验、信息熵 集成学习将多个学习器进行有效的集成以提高算法的预测准确度和鲁棒性如随机森林、Adaboost等。
http://www.hkea.cn/news/14539643/

相关文章:

  • 网站建设推广注册公司在线画流程图的网站
  • 在什么网站做调查问卷wordpress搜索插件
  • 百度收录网站电话对电子商务网站建设与管理的理解
  • 网站开发国内外研究背景网站管理登录系统
  • 盘锦网站制作企业微信官网
  • 手表网站 二手不会做网站能做网络销售吗
  • 企业网站成功案例网络舆情处置公司
  • 主题公园旅游景区网站建设成都网站开发培训多少钱
  • asp.net网站开发项目化教程wordpress会员管理插件
  • 免费驾校网站模板龙炎电商软件
  • 广州增城区门户网站免费的网站在哪里下载
  • 旅游网站建设的重要性中国核工业第五建设
  • 比较好的商城网站设计西安专业做网站建设
  • 上海哪家公司做网站好山东省威海市文登区建设局网站
  • 电子商务网站建设与维护的考试高端网站建设知识
  • 贵阳58同城做网站公司有哪些返佣网站都是自己做的
  • 万站群cms云南省住房与城乡建设厅网站
  • 哪些网站可以免费看剧phpcms网站转移
  • 邯郸装修网站建设有什么网站可以帮人做模具吗
  • 用KEGG网站做KEGG富集分析修改wordpress中附件上传大小
  • 高明骏域网站建设泉州app开发
  • cms企业网站系统城乡住房建设厅网站
  • 装修公司网站设计专做品牌的网站
  • 青岛网上房地产网站软件开发全过程
  • 亿藤互联网站建设开发网站pr怎么提升
  • 毕业设计代做网站都有哪些网站优秀设计方案
  • 谷歌怎么把两个网站做反链临沂设计网站的公司
  • 简述网站制作过程做游戏网站赚钱么
  • 做搜狗手机网站点击软百度网盘网站开发文档模板
  • 网站开发教程 布局cp网站开发搭建网站多少钱一套