当前位置: 首页 > news >正文

金华网站建设大型网页建设厦门电信网站备案

金华网站建设大型网页建设,厦门电信网站备案,中国石油第一建设公司官网,组建局域网0、前言#xff1a; 机器学习中的贝叶斯的理论基础是数学当中的贝叶斯公式。这篇博客强调使用方法#xff0c;至于理论未作深究。机器学习中三种类型的贝叶斯公式#xff1a;高斯分布#xff08;多分类#xff09;、多项式分布#xff08;文本分类#xff09;、伯努利分…0、前言 机器学习中的贝叶斯的理论基础是数学当中的贝叶斯公式。这篇博客强调使用方法至于理论未作深究。机器学习中三种类型的贝叶斯公式高斯分布多分类、多项式分布文本分类、伯努利分布二分类任务贝叶斯算法优点对小规模数据表现好能处理多分类任务常用于文本分类。缺点只能用于分类问题。 1、高斯分布的贝叶斯算法 应用鸢尾花分类任务分界图 # 导入基础库 import numpy as np import pandas as pd import matplotlib.pyplot as plt from sklearn.datasets import load_iris# 导入贝叶斯高斯分布、多项式分布、伯努利分布 from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB data,target load_iris(return_X_yTrue) display(data.shape, target.shape)data2 data[:,2:].copy() # 训练模型 GS_nb GaussianNB() GS_nb.fit(data2,target)# 画分界图 # 先生成x坐标和y坐标 X np.linspace(data2[:,0].min(),data2[:,0].max(),1000) Y np.linspace(data2[:,1].min(),data2[:,1].max(),1000)# 然后将x坐标和y坐标对应的网格坐标对应出来 nx,ny np.meshgrid(X,Y)# 扁平化 nx nx.ravel() ny ny.ravel()# 组合堆积成新的数据集 disdata np.c_[nx,ny] pd.DataFrame(disdata).head(3)# 预测 disdata_pred GS_nb.predict(disdata)# 绘制分界图(这种速度比较慢) plt.scatter(disdata[:,0],disdata[:,1],cdisdata_pred) plt.scatter(data2[:,0],data2[:,1],ctarget,cmaprainbow)# 绘制分界图(这种速度快) plt.pcolormesh(X,Y,disdata_pred.reshape(1000,-1)) # 将disdata_pred的值以伪彩色图(plt.pcolormesh)的形式在二维网格上显示出来。 plt.scatter(data2[:,0],data2[:,1],ctarget,cmaprainbow) # cmaprainbow是matplotlib库中plt.scatter函数的一个参数。这个参数用于指定色彩映射colormap。在这种情况下rainbow是一种色彩映射它会从红色开始逐渐过渡到橙色、黄色、绿色、青色、蓝色和紫色。在这个应用中用多项式分布的贝叶斯分类效果没有高斯分布好而伯努利分布的贝叶斯只能用于二分类任务。 2、三种贝叶斯算法的文本分类应用效果 代码 # 老三件 import numpy as np import pandas as pd import matplotlib.pyplot as plt # 导入三种贝叶斯算法 from sklearn.naive_bayes import GaussianNB,MultinomialNB,BernoulliNB # 导入数据5571条数据有两列其中第一列为标签第二列为短信内容 data pd.read_table(./data2/SMSSpamCollection,headerNone) pd.DataFrame(data).head(2) # 从数据中分词并且统计每个短信中分词的出现频率最终呈现一个稀疏矩阵作为贝叶斯算法的输入 a_data data[1].copy() target data[0].copy() a_data.shape # 一维 from sklearn.feature_extraction.text import TfidfVectorizer # 特征提取库中的Tfid~是用于文本数据的特征提取1、TfidfVectorizer将文本数据转换为特征向量形式每个词表示一个特征维度每个维度的值是这个词在文本中的权重出现的次数 2、这个库是文本数据用于机器学习模型的关键步骤 3、导入后使用方法和机器学习算法非常类似要先创建对象然后fit# 创建特征词向量的对象 tf TfidfVectorizer() tf.fit(a_data) # 输入一维的源文本数据即可,这一步会统计分词信息 X tf.transform(a_data).toarray() # 这一步会根据上面统计的分词信息构建稀疏矩阵# tf.transform(a_data) # 5572x8713 sparse(稀疏) matrix of type class numpy.float64 # with 74169 stored elements in Compressed Sparse Row format # .toarray()就是将结果转换为array数组 # 高斯分布贝叶斯 GS GaussianNB() GS.fit(X,target) GS.score(X,target) # 0.9414931801866475 # 多项式分布贝叶斯 MT MultinomialNB() MT.fit(X,target) MT.score(X,target) # 0.9761306532663316 # 伯努利分布贝叶斯 BE BernoulliNB() BE.fit(X,target) BE.score(X,target) # 0.9881550610193827 # 预测数据处理要按照之前特征词向量对象模型转换(不能重新设置特征词向量对象后fit会导致测试数据维度和训练模型的输入数据维度不匹配) m [hello, nice to meet you,Free lunch, please call 09999912313,Free lunch, please call 080900031 9am - 11pm as a $1000 or $5000 price ] m tf.transform(m).toarray() # 测试预测 GS.predict(m) # array([ham, ham, ham], dtypeU4) MT.predict(m) # array([ham, ham, spam], dtypeU4) BE.predict(m) # array([ham, ham, spam], dtypeU4) 总结 1、在进行文本分类时调用贝叶斯算法的方式还是中规中矩其中一个难点是读数据时要先知道数据的格式然后才能通过pandas来读取 2、非常重要的一个工具就是sklearn库提供的分词工具from sklearn.feature_extraction.text import TfidfVectorizer它可以把一个一维的文本数据每个元素是一个句子文本的列表或者其他一维数据通过fit方法将其特征词提取出来进行分词之后通过transform方法再次输入数据就可以把数据变成稀疏矩阵然后再次通过toarray方法将数据变成真真的numpy二维数组。 3、从文本分类结果看多项式分布更适合做文本分类但是对于二分类文本分类任务伯努利效果更佳。
http://www.hkea.cn/news/14264573/

相关文章:

  • 网站布局方案搜索引擎优化培训
  • 济宁有没有专门做网站的网站开发只要
  • 杭州网站建设网网站后台怎么添加图片
  • 手机网站 微信链接怎么做郑州各区房价一览表
  • 上海门户网站建设公司wordpress采集规则
  • 智能logo设计网站龙岩网站设计价格
  • 长春建站的费用网站是用dreamer做的_为什么后台能进去前台进不去了
  • 搭建网站是什么下载微信公众号
  • 建设网站的功能地位如何做垂直网站
  • 网站建设数据库建设vi设计用什么软件做
  • 凉山建设局网站苏州网站建设招聘
  • 网站运营需要做什么网站功能与内容设计的步骤
  • 做的比较好的法律实务培训网站亚马逊品牌备案网站怎么做
  • 给公司做兼职维护网站多少钱电子商务和网站建设区别
  • 上海网站建设 找思创网络做汽车新闻哪个网站好
  • 网站关键词收费邯郸手机建站价格
  • 郑州酒店网站建设做h5页面的网站有哪些
  • 高陵县建设局网站公司管理类培训
  • 深圳网站建设好吗往公众号里放网站怎么做
  • 做静态网站需要成本吗聚美优品的电子商务网站建设论文
  • 怎样建立销售网站网上超市商城
  • 网站建设技术公司排名淮南建设公司网站
  • 织梦做网站也是模板吗手机网站底部代码
  • 两学一做纪实评价系统网站咸鱼之王小程序
  • 湘潭网站建设方案费用丹阳网站建设报价
  • 网站流量突然增大wordpress 首页显示分类
  • 网站设计公司网设计网站价格
  • wordpress主题 手机主题搜索引擎优化简称
  • 网站备案系统龙岗注册公司
  • 兼职网网站建设方案蚌埠做网站公司