当前位置: 首页 > news >正文

做网站一月工资南昌seo排名外包

做网站一月工资,南昌seo排名外包,代备案域名30元,建设银行注册网站名咋设置朴素贝叶斯广泛地应用在文本分类任务中#xff0c;其中最为经典的场景为垃圾文本分类(如垃圾邮件分类:给定一个邮件#xff0c;把它自动分类为垃圾或者正常邮件)。这个任务本身是属于文本分析任务#xff0c;因为对应的数据均为文本类型#xff0c;所以对于此类任务我们首先…朴素贝叶斯广泛地应用在文本分类任务中其中最为经典的场景为垃圾文本分类(如垃圾邮件分类:给定一个邮件把它自动分类为垃圾或者正常邮件)。这个任务本身是属于文本分析任务因为对应的数据均为文本类型所以对于此类任务我们首先需要把文本转换成向量的形式然后再带入到模型当中。  import pandas as pd import numpy as np import matplotlib.mlab as mlab import matplotlib.pyplot as plt # 读取spam.csv文件 df pd.read_csv(/home/anaconda/data/Z_NLP/spam.csv, encodinglatin) df.head() # 重命名数据中的v1和v2列,使得拥有更好的可读性 df.rename(columns{v1:Label, v2:Text}, inplaceTrue) df.head() # 把ham和spam标签重新命名为数字0和1 df[numLabel] df[Label].map({ham:0, spam:1}) df.head() # 统计有多少个ham,有多少个spam print (# of ham : , len(df[df.numLabel 0]), # of spam: , len(df[df.numLabel 1])) print (# of total samples: , len(df)) # 统计文本的长度信息,并画出一个histogram text_lengths [len(df.loc[i,Text]) for i in range(len(df))] plt.hist(text_lengths, 100, facecolorblue, alpha0.5) plt.xlim([0,200]) plt.show() # 导入英文的停用词库 from sklearn.feature_extraction.text import CountVectorizer # 构建文本的向量 (基于词频的表示) vectorizer CountVectorizer() X vectorizer.fit_transform(df.Text) y df.numLabel # 把数据分成训练数据和测试数据 from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.20, random_state100) print (训练数据中的样本个数: , X_train.shape[0], 测试数据中的样本个数: , X_test.shape[0]) # 利用朴素贝叶斯做训练 from sklearn.naive_bayes import MultinomialNB from sklearn.metrics import accuracy_score clf MultinomialNB(alpha1.0, fit_priorTrue) clf.fit(X_train, y_train) y_pred clf.predict(X_test) print(accuracy on test data: , accuracy_score(y_test, y_pred)) # 打印混淆矩阵 from sklearn.metrics import confusion_matrix confusion_matrix(y_test, y_pred, labels[0, 1])例题垃圾邮件的分类 总体来讲朴素贝叶斯分为两个阶段:  计算每个单词在不同分类中所出现的概率这个概率是基于语料库(训练数据)来获得的。利用已经计算好的概率再结合贝叶斯定理就可以算出对于一个新的文本它属于某一个类别的概率值并通过这个结果做最后的分类决策。 先验 贝叶斯定理  平滑操作---防止也有概率是0但是贝叶斯乘积永远是0加1平滑 另外在上述过程中可以看到分子的计算过程涉及到了很多概率的乘积一旦遇到这种情形就要知道可能会有潜在的风险。比如其中一个概率值等于0那不管其他概率值是多少最后的结果一定为0有点类似于“功亏一篑“的情况明明出现了很多垃圾邮件相关的单词就是因为其中的一个概率0最后判定为属于垃圾邮件的概率为0这显然是不合理的。为了处理这种情况有一个关键性操作叫作平滑(smoothing)其中最为常见的平滑方法为加一平滑(add-one smoothing)。 例题完整的例子 分子加1分母加词库的数量 朴素贝叶斯的最大似然估计  生成模型和判别模型  生成模型是记住所有的特点所以接下来可以生成新的图片 而判别模型只记得他们之间的区别所以不能用来生成只能用来区分  判别模型的初衷是用来解决判别问题而且只做一件事情(不像生成模型即可以解决分类问题也可以解决生成数据的问题)所以在分类问题上它的效果通常要优于生成模型的。接下来试着从另外一个角度来理解它俩之间的区别。
http://www.hkea.cn/news/14499564/

相关文章:

  • 兴义网站建设本溪食品 中企动力提供网站建设
  • 永嘉网站制作公司电商直播app开发
  • 网站设计就业压力ui设计师职业规划
  • 苏州建设公司网站建设高水平 专业 建设 网站
  • 赣州网站建设新闻做网站平台需要多少钱
  • 龙华网站建设的软件湖南省住房建设厅网站
  • 免费视频素材网站哪个最好做网站需要icp经营许可证
  • wordpress主题中心开发wordpress目录seo
  • 如何做网站泛目录解析安卓app用什么语言开发
  • 深圳网站建设..wordpress大学模板
  • 如何提高网站加载速度慢怎样用电脑做网站
  • 深圳最好的营销网站建设公司网站建设费属于广告费用吗
  • 有什么网站可以帮人做模具吗做的网站
  • 关于做网站的保山市住房和城上建设局网站
  • 成都多享网站建设公司网站建设进度总结
  • 腾讯云如何做网站黄冈论坛遗爱网贴吧
  • 怎样做网站优化 知乎wordpress管理邮件
  • 网站数据库问题seo关键词推广优化
  • 网站建设哪家好推荐万维科技做一个网站分析应该怎么做
  • 杭州网站seo推广软件企业型网站建设方案
  • 鹤壁市住房和城乡建设局网站郑州网站建设公司
  • 邢台地区网站建设优化推广网站排名
  • 佛山建设网站公司wordpress 投稿 标签
  • 去哪里学习建设网站昆山网站建设怎么样
  • 深圳分销网站设计电话做模型找三视图那些网站
  • 什么网站可以卖自己做的东西京东短网址在线生成
  • 怎么把做的页面放到网站上北京首都功能优化
  • php网站的优点西安旅游服务网站建设
  • 做什么网站流量大wap网站现在还有什么用
  • dedecms仿站教程建网站的公司深圳