app模板下载网站模板,外贸网站测速,企业网站建站系统,网站建设中跳转页面源码在上面的介绍中#xff0c;我们有意忽略了编号这一列.若把编号也作为一个候选划分属性#xff0c;则根据信息增益公式可计算出它的信息增益为 0.9182#xff0c;远大于其他候选划分属性。
计算每个属性的信息熵过程中,我们发现,该属性的值为0, 也就…在上面的介绍中我们有意忽略了编号这一列.若把编号也作为一个候选划分属性则根据信息增益公式可计算出它的信息增益为 0.9182远大于其他候选划分属性。
计算每个属性的信息熵过程中,我们发现,该属性的值为0, 也就是其信息增益为0.9182. 但是很明显这么分类,最后出现的结果不具有泛化效果.无法对新样本进行有效预测.
实际上信息增益准则对可取值数目较多的属性有所偏好为减少这种偏好可能带来的不利影响著名的 C4.5 决策树算法 [Quinlan 1993J 不直接使用信息增益而是使用增益率 (gain ratio) 来选择最优划分属性.
增益率增益率是用前面的信息增益Gain(D, a)和属性a对应的固有值(intrinsic value) [Quinlan , 1993J的比值来共同定义的。 属性 a 的可能取值数目越多(即 V 越大)则 IV(a) 的值通常会越大.
案例一
a.计算类别信息熵
b.计算性别属性的信息熵(性别、活跃度)
c.计算活跃度的信息增益(性别、活跃度)
d.计算属性分裂信息度量
用分裂信息度量来考虑某种属性进行分裂时分支的数量信息和尺寸信息我们把这些信息称为属性的内在信息(instrisic information)。信息增益率用信息增益/内在信息会导致属性的重要性随着内在信息的增大而减小(也就是说如果这个属性本身不确定性就很大那我就越不倾向于选取它)这样算是对单纯用信息增益有所补偿。 e.计算信息增益率 活跃度的信息增益率更高一些所以在构建决策树的时候优先选择
通过这种方式在选取节点的过程中我们可以降低取值较多的属性的选取偏好。
案例二
如下图第一列为天气第二列为温度第三列为湿度第四列为风速最后一列该活动是否进行。
我们要解决根据下面表格数据判断在对应天气下活动是否会进行? 该数据集有四个属性属性集合A{ 天气温度湿度风速} 类别标签有两个类别集合L{进行取消}。
a.计算类别信息熵
类别信息熵表示的是所有样本中各种类别出现的不确定性之和。根据熵的概念熵越大不确定性就越大把事情搞清楚所需要的信息量就越多。
Ent(D)−149log2149−145log21450.940
b.计算每个属性的信息熵
每个属性的信息熵相当于一种条件熵。他表示的是在某种属性的条件下各种类别出现的不确定性之和。属性的信息熵越大表示这个属性中拥有的样本类别越不“纯”。 c.计算信息增益
信息增益的 熵 - 条件熵在这里就是 类别信息熵 - 属性信息熵它表示的是信息不确定性减少的程度。如果一个属性的信息增益越大就表示用这个属性进行样本划分可以更好的减少划分后样本的不确定性当然选择该属性就可以更快更好地完成我们的分类目标。
信息增益就是ID3算法的特征选择指标。 e.计算信息增益率
天气的信息增益率最高选择天气为分裂属性。发现分裂了之后天气是“阴”的条件下类别是”纯“的所以把它定义为叶子节点选择不“纯”的结点继续分裂。 在子结点当中重复过程1~5直到所有的叶子结点足够纯。
现在我们来总结一下C4.5的算法流程
while(当前节点不纯)1.计算当前节点的类别熵(以类别取值计算)2.计算当前阶段的属性熵(按照属性取值吓得类别取值计算)3.计算信息增益4.计算各个属性的分裂信息度量5.计算各个属性的信息增益率
end while
当前阶段设置为叶子节点