当前位置: 首页 > news >正文

沈阳妇科检查百度排名优化

沈阳妇科检查,百度排名优化,工业和信息化部考试中心,杭州老牌的网站建设#x1f680;个人主页#xff1a;为梦而生~ 关注我一起学习吧#xff01; #x1f4a1;专栏#xff1a;机器学习 欢迎订阅#xff01;相对完整的机器学习基础教学#xff01; ⭐特别提醒#xff1a;针对机器学习#xff0c;特别开始专栏#xff1a;机器学习python实战… 个人主页为梦而生~ 关注我一起学习吧 专栏机器学习 欢迎订阅相对完整的机器学习基础教学 ⭐特别提醒针对机器学习特别开始专栏机器学习python实战 欢迎订阅本专栏针对机器学习基础专栏的理论知识利用python代码进行实际展示真正做到从基础到实战 往期推荐 【机器学习基础】机器学习入门1 【机器学习基础】机器学习入门2 【机器学习基础】机器学习的基本术语 【机器学习基础】机器学习的模型评估评估方法及性能度量原理及主要公式 【机器学习基础】一元线性回归适合初学者的保姆级文章 【机器学习基础】多元线性回归适合初学者的保姆级文章 【机器学习基础】对数几率回归logistic回归 【机器学习基础】正则化 【机器学习基础】决策树Decision Tree 本期内容前面介绍的各种模型都是有监督的模型对于无监督最经典的就是聚类算法本文就来介绍一下主要的聚类方法。 文章目录 1 聚类算法分析概述2 K-Means聚类算法3 K-Means参数概念及公式推导3.1 平方误差Sum of Squared Errors3.2 欧氏距离euclidean metric3.3 轮廓系数Silhouette Coefficient3.4 DB指数Davies-Bouldin Index 4 K-Means聚类算法的实现4.1 算法流程4.2 算法的伪代码描述4.3 算法优缺点 1 聚类算法分析概述 近几年随着网络的发展越来越多的人开始习惯于在网上找信息而网络也逐渐地走进了人们的日常生活。从人们每天都会接触到大量的数据比如文字、音乐、图像、视频等等。随着信息的增多人工智能应运而生。而在人工智能这个概念中机器学习尤为重要是实现人工智能的基础。机器学习就是让计算机具有人一样的学习能力的技术对当前和历史的海量数据进行挖掘、分析并从中发现有价值的信息和规律。 随着大数据时代的来临数据挖掘技术逐渐成为一种通用的业务方式并推动了机器学习技术的快速发展。2021年我国电商交易额为42.30万亿元较上年同期增加了19.6%。在电商和其他行业中要想获得更好的用户体验就必须要对新用户进行类型的识别这时就可以将新用户进行聚类将其分成多个簇之后再以获得的结果为依据来训练分类模型进而判别新用户的类型。但是传统的数据挖掘技术已经不能适应海量的数据K-Means聚类算法依赖其较简单的推导过程和实用、简单和高效的特性等广受青睐在很多领域有巨大的贡献例如文档聚类、市场细分、图像分割、特征学习等。在非监督学习领域K均值聚类是最广泛的也是研究最多应用最广泛的。而在聚类算法中最常见的就是原型聚类也称原型判别以K均值算法为代表。 2 K-Means聚类算法 给定或随机产生m个样本的样本集。为了描述每个示例即样本我们给出了这样一个假设每个示例具有d个属性来描述这些属性反映了它与其他示例的关系即每个示例是d维样本空间中的一个向量。 K-Means算法的基本思想是将数据集按照距离进行划分对于每一个样本将它的邻域内的所有样本都分配到最近的那个类中。 首先算法需要预先指定并且划分为k个簇这也是与其他算法的不同点。在这里定义簇的均值向量为 基于此定义簇内样本围绕簇均值向量的紧密程度[13]即平方误差为 E的值越小则簇内样本相似度越高K-Means算法就是通过通过最小化SSE来寻找使得模型预测误差最小的模型参数。 3 K-Means参数概念及公式推导 3.1 平方误差Sum of Squared Errors 在聚类分析中平方误差Sum of Squared ErrorsSSE是一种衡量聚类效果的指标。聚类算法将数据点分配到不同的簇中每个数据点与它所属的簇的质心之间的距离被计算出来然后平方最后这些平方距离的和被称为平方误差。 具体来说对于每个数据点xi和它所属的簇ci的质心平方误差会计算为(xi - ci)^2。然后所有簇的平方误差会相加得到总的平方误差。这个值越小说明每个数据点与它所属的簇的质心之间的距离越小也就是聚类效果越好。 这个概念可以用于评估和优化聚类算法。比如在K-means算法中初始质心的选择可能会影响聚类结果。K-means 算法通过让选择的质心尽可能分散来改善这个问题。另外二分K-means算法则通过反复将一个簇划分为两个簇直到达到用户给定的簇数目为止。在这个过程中被划分出去的总是误差平方和最大的簇因为这通常意味着这个簇的聚类效果最不好。 3.2 欧氏距离euclidean metric 也被称为欧几里得度量是一个经常使用的在m维空间中两点之间的距离定义或者向量的自然长度即该点到原点的距离。在二维和三维空间中的欧氏距离就是两点之间的实际距离。 在聚类分析中欧氏距离是常用的距离度量方式之一。它表示的是在n维空间中两个点之间的直线距离。 具体计算公式为 其中x和y是两个n维向量x1,x2,…,xn和y1,y2,…,yn是它们的对应维度上的值。 在应用方面欧氏距离经常被用于衡量数据点之间的相似度数据点之间的距离越小说明它们越相似。例如在客户分群中可以使用该算法将相似行为模式的客户归类到同一簇中以便进行个性化推荐和精准营销。在图像分析中可以使用该算法将相似的图像归类到同一簇中以便进行图像检索和内容识别。 缺点 例如它对数据的尺度敏感需要对数据进行归一化处理以避免尺度差异对聚类结果的影响。此外它只考虑了数据点之间的距离没有考虑到数据点之间的方向关系因此在处理某些特殊数据集时可能会出现聚类效果不佳的情况。 3.3 轮廓系数Silhouette Coefficient 轮廓系数Silhouette Coefficient是一种用于评估聚类效果的指标它考虑了聚类中的内聚度和分离度。 轮廓系数的计算涉及到每个数据点和其所属簇内其他数据点的距离以及该数据点与其他簇的距离。具体而言对于每个数据点其轮廓系数被定义为s (b - a) / max(a, b)其中a是数据点与其同簇其他数据点的平均距离b是数据点与其他簇的平均距离。 轮廓系数计算公式如下 根据轮廓系数的定义si接近1时说明样本i聚类合理si接近-1时说明样本i更应该分类到另外的簇若si近似为0则说明样本i在两个簇的边界上。所有样本的si的均值称为聚类结果的轮廓系数是该聚类是否合理、有效的度量。 优点 它可以用于处理不等簇大小的情况因为它考虑了每个样本点与其他簇的平均距离。 轮廓系数的值域为[-1,1]方便理解和使用。 局限性 它对异常值比较敏感可能会受到离群点的影响。 3.4 DB指数Davies-Bouldin Index DB指数Davies-Bouldin Index是一种用于评估聚类效果的内部指标。它考虑了每个簇内的样本点的紧密程度以及不同簇之间的分离度。 DB指数的计算方法如下 对于每个簇Ck计算其内部样本点之间的平均距离avg(Ck)。对于每个簇Ck计算其与其它簇之间的最小样本距离dmin(Ck, Cj)。对于每个簇Ck计算其中心点与其它簇中心点之间的距离dcen(Ck, Cj)。计算DB指数公式为DBIk1i1∑kmaxj̸​i​(dcen(ui,uj)avg(Ci)avg(Cj)​)。 DB指数的值越小说明聚类效果越好。这是因为DB指数衡量的是不同簇之间的分离度和簇内的紧密程度之间的平衡当DB指数越小说明聚类效果越好。 缺点 DB指数对于异常值比较敏感因为异常值可能会影响簇内样本点的平均距离的计算。 此外DB指数也可能会受到样本规模的影响因为样本规模的增加可能会增加计算量从而影响聚类效果的评价。 DB指数在计算过程中需要知道真实标签信息因此常常被用作无监督聚类算法的评价指标在比较不同算法或不同参数设置时提供了重要的帮助。 4 K-Means聚类算法的实现 K-Means聚类算法的基本原理是针对聚类簇划分最小化平方误差。平方误差在一定程度上描述了簇内样本点围绕簇均值向量的紧密程度它的值越小说明聚类效果越好。 4.1 算法流程 从数据中选择K个对象作为初始聚类中心。计算每个聚类对象到聚类中心的距离将每个对象归到距离最近的聚类中心所对应的类别。对于每个聚类计算其所有数据点的均值作为新的聚类中心。如果聚类中心发生变化返回第2步否则算法结束。整个算法会反复迭代第2步至第4步直到聚类中心不再发生变化或达到最大迭代次数为止。最终算法将会得到聚类结果将每个数据点划分到不同的聚类中心所对应的类别中。 4.2 算法的伪代码描述 K-Means聚类算法的执行效果如下图所示 4.3 算法优缺点 优点 首先此算法容易理解、方便实现其次K均值算法可以看作高斯混合聚类在混合成分方差相等、且每个样本仅派给一个混合成分时的特例所以该算法在数据集近似高斯分布时聚类效果不错。同时该算法可以处理大规模数据集效率高。 缺点 但是缺点也很显然。K值和初始聚类点的选取对于聚类的效果可能产生较大的影响其次样本点的离散程度可能对于聚类影响有较大的差别特别是离群点的处理问题。由于K-Means聚类算法只能使用欧氏距离进行计算所以只能较好的适用于椭球形类簇对于非凸形状的簇不适合。K-Means算法只能处理数值型数据对于非数值型数据需要进行转换才能使用。最后由于此算法的时间复杂度为 O ( n k t ) O(nkt) O(nkt)所以在大规模数据上收敛较慢甚至引起崩溃。
http://www.hkea.cn/news/14394082/

相关文章:

  • 安徽省建设厅网站人员管理做外快的网站
  • 旅游网站建设最重要的流程搭建网站怎么挣钱
  • 湖南交通建设监理协会网站wordpress新增文章小工具
  • 做普通网站公司马鞍山网站建设费用
  • 做企业的网站都要准备什么长春seo经理
  • 软件开发网站开发公积金网站建设模板
  • 站长工具seo诊断seo实战密码读后感
  • 营销技巧第三季在线观看长沙网站seo哪家公司好
  • php网站怎么注入做网站建设销售员准备什么
  • 网站如何做流媒体如何在外管局网站上做延期
  • 门户网站开发工具软件施工企业工作分解结构
  • 做饲料的专业网站如何建立和设计公司网站作文
  • 网站策划中规划预测怎们做微网站建设 上海
  • 网页制作工具的选择与网站整体风格是有关系吗WordPress写文章本地上传
  • 公司主页网站制作榆林高端网站建设如何设计
  • wordpress 个人网站大千科技网站建设
  • 网站制作流程有哪些步骤?安徽省通信建设管理局网站
  • 大良营销网站建设价格wordpress服务器配置文件
  • 做网站需要网站负责人小程序开发制作官网
  • wordpress用哪个国外空间企业网站关键词优化
  • 北京响应式的网站设计重庆九龙网站建设
  • 具有营销型网站有哪些网站到期续费通知
  • 网站包括什么wordpress自定义文章排序
  • 网站管理助手 二级域名免费空间asp网站
  • 网站页面设计内容网络营销推广的目的
  • seo网站推广的主要目的包括网址导航网站简单制作
  • 柳州房地产网站建设杭州网站制作模板
  • 网站设计的设计方案找工作室的网站
  • 个人网页简历苏州做网站优化
  • 重庆网站建设培训机构学费网站开发 有哪些优化功能