西安网站设设,设计素材模板,杭州关键词优化服务,企业建设网站的步骤决策树-分类
1 概念
1、决策节点通过条件判断而进行分支选择的节点。如#xff1a;将某个样本中的属性值(特征值)与决策节点上的值进行比较#xff0c;从而判断它的流向。
2、叶子节点没有子节点的节点#xff0c;表示最终的决策结果。
3、决策树的深度所有节点的最大层…决策树-分类
1 概念
1、决策节点通过条件判断而进行分支选择的节点。如将某个样本中的属性值(特征值)与决策节点上的值进行比较从而判断它的流向。
2、叶子节点没有子节点的节点表示最终的决策结果。
3、决策树的深度所有节点的最大层次数。
决策树具有一定的层次结构根节点的层次数定为0从下面开始每一层子节点层次数增加
决策树优点
可视化 - 可解释能力-对算力要求低 决策树缺点
容易产生过拟合所以不要把深度调整太大了。
集成学习方法之随机森林
机器学习中有一种大类叫集成学习Ensemble Learning集成学习的基本思想就是将多个分类器组合从而实现一个预测效果更好的集成分类器。集成算法可以说从一方面验证了中国的一句老话三个臭皮匠赛过诸葛亮。集成算法大致可以分为BaggingBoosting 和 Stacking 三大类型。
1每次有放回地从训练集中取出 n 个训练样本组成新的训练集
2利用新的训练集训练得到M个子模型
3对于分类问题采用投票的方法得票最多子模型的分类类别为最终的类别 随机森林就属于集成学习,是通过构建一个包含多个决策树(通常称为基学习器或弱学习器)的森林每棵树都在不同的数据子集和特征子集上进行训练最终通过投票或平均预测结果来产生更准确和稳健的预测。这种方法不仅提高了预测精度也降低了过拟合风险并且能够处理高维度和大规模数据集
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
from sklearn.feature_extraction import DictVectorizer
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_splitdatapd.read_csv(../src/titanic/titanic.csv)
data[age].fillna(data[age].mode()[0],inplaceTrue)
Xdata[[pclass,age,sex]]
ydata[survived]
data.drop([survived],axis1,inplaceTrue)
dictdata.to_dict(orientrecords)
vecDictVectorizer(sparseFalse)
xvec.fit_transform(dict)
x_train,x_test,y_train,y_testtrain_test_split(x,y,test_size0.25,random_state666)
scalerStandardScaler()
x_train1scaler.fit_transform(x_train)
modelRandomForestClassifier(n_estimators100,max_depth8,criteriongini)
model.fit(x_train1,y_train)
x_testscaler.transform(x_test)
rankmodel.score(x_test,y_test)
print(rank)