当前位置: 首页 > news >正文

六安网站怎么做seo软件开发公司网站

六安网站怎么做seo,软件开发公司网站,找人做的网站第二年多钱,wordpress图集主题划分依据 基尼系数基尼系数的应用信息熵信息增益信息增益的使用信息增益准则的局限性 最近在学习项目的时候经常用到随机森林,所以对决策树进行探索学习。 基尼系数 基尼系数用来判断不确定性或不纯度,数值范围在0~0.5之间,数值越低&#x…

划分依据

    • 基尼系数
    • 基尼系数的应用
    • 信息熵
    • 信息增益
    • 信息增益的使用
    • 信息增益准则的局限性

最近在学习项目的时候经常用到随机森林,所以对决策树进行探索学习。

基尼系数

基尼系数用来判断不确定性或不纯度,数值范围在0~0.5之间,数值越低,数据集越纯。
基尼系数的计算:
假设数据集有K个类别,类别K在数据集中出现的概率为Pk,则基尼系数为:
在这里插入图片描述
上式是用来求某个节点的基尼系数,要求某个属性的基尼系数用下面的公式:
在这里插入图片描述
最后选择基尼系数最小的属性进行划分即可。

基尼系数的应用

在决策树中,假如某个节点的基尼系数就是0,此时被分类到这个节点的数据集是纯的,意思就是按照此叶节点的父节点的分类方法来说,此叶节点都是同一个类别的,不需要再次分裂决策。

信息熵

信息熵和基尼系数作用相同,都是用来度量样本集合纯度的指标。
计算方法:
在这里插入图片描述
Pk是当前样本集合中第k类样本所占比例,Ent(D)(信息熵)越小,集合D的纯度越高。

这里约定当Pk为0时Ent(D)=0;

信息增益

计算公式:在这里插入图片描述
假设现在对集合D使用属性a来进行划分,属性a有v个取值,也就是有v个节点,上式中Dv是第v个节点就是取值为v的样本个数。

信息增益的使用

信息增益越大,说明使用属性a来划分所获得的纯度提升越大,决策树越好。

信息增益准则的局限性

从上面的公式可以看出,信息增益偏好可取值数目较多的属性,假如某个属性可取值达到了n,也就是每个样本都不一样,比如“编号”属性,那可以计算出这个属性的信息增益接近1,选择这样的属性来划分很可能不具有泛化能力。
改进:
使用增益率在这里插入图片描述
对于这个公式,当属性a的可取值越多时,则IV(a)会越大,增益率变小,进行了平衡。同样的,增益率准则也有局限,它对可取值较少的属性又有所偏好。

最终:先找出信息增益高于平均水平的属性,再从中选择增益率最高的即可。

http://www.hkea.cn/news/872915/

相关文章:

  • 网站建设国际深圳网络营销课程ppt
  • 网站开发人员需要具备的能力电脑培训班多少费用
  • discuz集成wordpressseo的概念是什么
  • 子网站如何做网站营销方案模板
  • dreamweaver做的网站电商培训班一般多少钱
  • 国外做科研的网站东莞网站设计公司排名
  • 亿唐网不做网站做品牌原因seo网站诊断报告
  • 宝鸡网站建设东东怎么推广软件让别人下载
  • 21dove谁做的的网站百度一下首页设为主页
  • 猪八戒网站建设推广平台排名前十名
  • 广西建设质监站官方网站站长工具seo综合查询可以访问
  • 通用搭建网站教程优化营商环境的意义
  • 网站中加入地图怎样优化网站排名
  • 网站如何被搜索引擎收录地推推广平台
  • 池州做网站公司游戏搜索风云榜
  • 东丽区做网站网站查询平台
  • wordpress什么主题好用seo优化范畴
  • 局域网端口映射做网站西安竞价托管代运营
  • 重庆网站建设设计公司信息ip网站查询服务器
  • 网站积分的作用seo搜索引擎优化就业前景
  • 珠海网站品牌设计公司简介最新国内新闻重大事件
  • 广东专业网站客服软件定制站长统计app下载大全
  • 广东网站建设公司排名磁力帝
  • 胶南网站建设哪家好成都电脑培训班零基础
  • 集团网站建设哪家好网上推广怎么弄?
  • dz网站建设器最近有新病毒出现吗
  • 个人网站制作说明香港旺道旺国际集团
  • 监控做直播网站免费网站seo
  • 网站建设洪塔网站搜索优化排名
  • 专业做设计师品牌网站深圳百度总部