当前位置：首页 > news >正文

网站建设子目录手机版网站建设价格

news 2026/4/23 2:22:53

网站建设子目录,手机版网站建设价格,网站建设合作合同,针织衫技术支持东莞网站建设✅作者简介#xff1a;CSDN内容合伙人、信息安全专业在校大学生#x1f3c6; #x1f525;系列专栏 #xff1a;课设-机器学习 #x1f4c3;新人博主 #xff1a;欢迎点赞收藏关注#xff0c;会回访#xff01; #x1f4ac;舞台再大#xff0c;你不上台#xff0c;… ✅作者简介CSDN内容合伙人、信息安全专业在校大学生系列专栏课设-机器学习新人博主欢迎点赞收藏关注会回访舞台再大你不上台永远是个观众。平台再好你不参与永远是局外人。能力再大你不行动只能看别人成功没有人会关心你付出过多少努力撑得累不累摔得痛不痛他们只会看你最后站在什么位置然后羡慕或鄙夷。文章目录一工程摘要二、研究背景与意义2.1 研究背景及意义2.2 文本特征提取方法三、模型方法3.1 数据集收集3.2 数据集处理3.3 **朴素贝叶斯模型**3.4 多项式事件模型3.5 模型建立拉普拉斯平滑拉普拉斯平滑3.6 模型的评估四实验结果分析、对比和讨论4.1 实验结果对比分析4.2 本次实验的不足五对本门课的感想、意见和建议六参考文献一工程摘要摘要本次报告实现了新闻分类。从新闻网站上收集了六类中文文本分别是政治体育法律经济科技美食。对文本采用词集模型和词袋模型分别处理利用机器学习模型中的基于Multinomial event model模型的朴素贝叶斯文本分类预测进行分类构建了一个新闻文本分类器。二、研究背景与意义 2.1 研究背景及意义中文文本分类在日渐完善的网络信息管理与网络平台建设方面都发挥着重要的作用。国内的信息发布和交流平台主要依靠中文文本进行信息的传递,随着用户的增多,涌现的文本数量也快速增长。平台上服务于用户的个性推荐、垃圾信息过滤等功能的实现主要依托于文本分类技术,然而在网络信息传播过程中,总会出现新鲜类别文本的数量呈爆炸性增长的情况,由于无法在短时间内针对新类别文本进行大量样本标注,会出现文本分类效果不佳的问题,导致与之相关的功能也受到影响。因此,高实时性要求的场景下快速准确的文本分类能力,对于保障网络平台功能的正常运作具有重要意义。基于此背景,本文对基于主动学习的中文文本分类问题进行了研究,能够在保证文本分类器性能的前提下,减少标注样本的使用。 2.2 文本特征提取方法经过特征提取后保留的文本特征是文本中最重要的特征,但是计算机并不认识,因此需要进一步转化为计算机能识别的向量。特征选择作为文本分类过程中的关键技术之一那么如何选取贡献程度比较大的特征项集合大大的降低文本中特征项的维度进而使文本分类的分类性能得以提升是亟待解决的问题。2005年Yan 等人提出了正交质心特征选择算法该算法主要是对正交质子空间学习算法的目标函数进行优化在特征维度很低的时候该算法拥有比较出色的表现。2009年Lin Ying 等人提出了一种新的特征选择算法该算法主要是基于词权重的概率模型。2013年Deng和 Zhong提出了一种新的特征选择算法该算法基于TF-IDF特征加权算法和KL散度可以更精准的反映文本的类别和内容。2019年Liu等人提出了一种用于不平衡数据分类的嵌入式特征选择方法。特征加权同样作为文本分类过程中的一个重要环节它可以进一步计算文本中的每一个特征项对于文本类别的划分所做的贡献程度值。选择合适的加权算法可以大大提高文本分类最终的分类性能。2007年Samer等人提出了一种名为Random-Walk特征加权算法,该特征加权算法最终的分类结果也比较出色。2009年,Lin Yin等人提出了一种面向不平衡文本分类的特征加权算法。2010年Nigam提出了一种基于嫡的特征加权算法该算法主要是基于信息嫡来度量文本中特征项的权重。2014年Peng等人提出了一种改进的TF-IDF特征加权算法该算法可以同时反映文本特征在正类别文本与负类别文本中的重要性。2018年张敏提出了一种局部一致性的信息嫡Relief特征加权算法。三、模型方法 3.1 数据集收集本次报告采用的数据集为新闻网公开的的数据集分为六类分别为政治体育法律经济科技美食。共25655条数据其中80%用作训练集20%用作测试集。 3.2 数据集处理因为训练集和测试集的处理方法是一致的所以下文只介绍训练集。 1首先将txt中的文本的不同标签下的数据提取放置于一个二维列表中因为是有监督学习所以将同种类的文本放置于同一个维度下实现代码为load_data_set()和get_data_list()。因为下载的文章有各种标签所以要用正则表达式读取实现的代码如下图表 1 数据的读取 2对其去重去停用词。去重为了生成词汇表。在生成词汇表时可用python自带的set集合来表示集合中不会有重复元素。划分词语时有些词语是没有实际意思的对后续的关键词提取就会加大工作量并且可能提取的关键词是无效的。所以在分词处理以后引入停用词去优化分词的结果。所以要在词汇表中删除停用词。实现的代码为create_vocab_list()和load_stop_words()。停用词表为网上公开的数据集提前保存到txt文件中。实现的代码如下图表 2 生成词汇表和去停用词 3文本向量化以词为单位。分别利用如下的词集模型和词袋模型利用上述的词汇表将文本转换为向量。二者的不同点在于对于重复出现的词在向量中的位置由1表示还是由出现的次数表示。词集模型词袋模型实现的代码如下图表 3 SOW和BOW的代码实现 3.3 朴素贝叶斯模型贝叶斯公式如下由于同一个训练集的p(x)和p(y)相等则可以转化为如下公式即类先验概率和类条件概率的乘积由于模型采用了ycj表明使用了标签信息最后预测时需要对测试样本属于每个标签的概率都要计算一遍。不像生成式一般直接就输出测试样本的概率分布。 3.4 多项式事件模型 1模型概率计算假设每个类别的概率将文本转换为字符统计将重复字符转为N次方形式联合概率 2最大似然求参 3解出闭式解 MLE 公式应用拉格朗日乘法 4闭式MLE解梯度 MLE解为了避免在预测时出现概率为零的情况应用拉普拉斯平滑 3.5 模型建立程序首先输入预先统计好的词汇表数和文档数目利用拉普拉斯平滑方法创建一个全为1的数组。然后继续利用拉普拉斯方法初始化所有标签的概率即分子为相应的标签数量1分母为训练集总标签的数量标签的分类数量本报告为6。 for i in range(len(p_class)): 拉普拉斯平滑 p_class[i] np.log((train_category.count(i) 1.0) / (len(train_category) classes_num)) 然后循环整个训练集按照上述公式累加相应标签下相应词中每个元素的分子分母。 for i in range(classes_num): 拉普拉斯平滑 p_words_num.append(np.ones(num_words)) p_words_denom.append(num_words) 分子和分母相除时要取对数防止下溢出。 for i in range(classes_num): p_words.append(np.log(p_words_num[i] / p_words_denom[i])) 即计算每个标签下的每个词出现的累加概率此时的值即为后续验证集中某个词是否为相应标签下的权重。后续预测时不像生成式一般直接就输出测试样本的概率分布需要对测试样本属于每个标签的概率都要计算一遍。 for class_index in range(classes_num): log_sum p_class[class_index] for i in range(len(bag_of_words_vec)): if bag_of_words_vec[i] 0: log_sum bag_of_words_vec[i] * p_words[class_index][i] 此时选择概率最大的所属标签即为可能的标签。Python中的矩阵模块自带函数numpy.argmax可以得到每一维度下最大值所在的索引刚好对应相应字典中的标签。此时便可在有监督学习下预测值是否正确。 3.6 模型的评估过拟合一个假设在训练数据上能够获得比其他假设更好的拟合但是在测试数据集上却不能很好地拟合数据此时认为这个假设出现了过拟合的现象。(模型过于复杂)高方差欠拟合一个假设在训练数据上不能获得更好的拟合并且在测试数据集上也不能很好地拟合数据此时认为这个假设出现了欠拟合的现象。(模型过于简单)高偏差初步测试时将20%的测试集放入测试得到准确率为93.90%怀疑是过度拟合将80%的测试集放入测试得到准确率为99.16%模型过于拟合方差太高我认为是有几点可以改进的地方1、增大数据的训练量2、减少特征维度减少词汇表3、正则化。本次报告从前两点入手。起初词汇表为23983条词汇。将词汇随机选取18000条测试是否拟合程度可以下降。结果为将20%的测试集放入测试得到准确率为94.93%将80%的测试集放入测试得到准确率为98.83%得出结论该程序过拟合并且当适当缩小词汇表规模的情况下可以增加准确率。所以需要降低特征维度也就是降低词汇表中的数据集数量所以设计程序以1000的间隔遍历词汇表观察测试集和训练集的准确率。程序运行的结果如下图图表 4 词汇表在16000-23000的测试结果由图像可知在21000附近以100位单位继续划分得到如下结果图表 5词汇表在20500-21500的测试结果由上图可知词汇表在20900附近得到的模型较好拟合度较高。四实验结果分析、对比和讨论 4.1 实验结果对比分析 1不同数量词汇表下的准确率一个假设在训练数据上能够获得比其他假设更好的拟合但是在测试数据集上却不能很好地拟合数据此时认为这个假设出现了过拟合的现象。(模型过于复杂)高方差。一个假设在训练数据上不能获得更好的拟合并且在测试数据集上也不能很好地拟合数据此时认为这个假设出现了欠拟合的现象。(模型过于简单)高偏差经过对比和遍历循环找到了最适合的最拟合的数据集如下图所示图表 6 词汇表在20500-21500的测试结果 2SOW和BOW模型下的准确率经过对比SOW和BOW模型下的准确率发现BOW下的准确率略高于SOW,SOW是单个文本中单词出现在字典中就将其置为1而不管出现多少次。BOW是单个文本中单词出现在字典中就将其向量值加1出现多少次就加多少次。所以BOW比SOW更能表现原始数据的特点吧但是都是基于词之间保持独立性没有关联为前提。这使得其统计方便但同时也丢失了文本间词之间关系的信息。结果如下图图表 7 SOW和BOW模型 3是否去停用词下的准确率经过对比是否去掉停词划分词语时有些词语是没有实际意思的对后续的关键词提取就会加大工作量并且可能提取的关键词是无效的。所以在分词处理以后引入停用词去优化分词的结果。所以结果如下图图表 8 是否去除停用词 3多元伯努利事件模型和多项式事件模型下的准确率二者的计算粒度不一样多项式模型以词为粒度伯努利模型以文件为粒度因此二者的先验概率和类条件概率的计算方法都不同。计算后验概率时对于一个文档d多项式模型中只有在d中出现过的词才会参与后验概率计算伯努利模型中没有在d中出现但是在全局单词表中出现的单词也会参与计算不过是作为“反方”参与的。所以在词汇表为23983条词汇时结果如下表模型名称\准确率测试集准确率训练集准确率多项式事件模型93.90%99.16%多元伯努利事件模型87.64%97.85% 图表 9多元伯努利事件模型和多项式事件模型 4.2 本次实验的不足 1SOW和BOW都是基于词之间保持独立性没有考虑句子有关联为前提。这使得其统计方便但同时也丢失了文本间词之间关系的信息。可以采用经典的One-hot模型、TF-IDF模型和基于深度学习的Word2vec模型。TF-IDF模型与One-hot模型相比,可以计算反词频概率值;Word2vec模型能解决One-hot模型和TF-IDF模型的维度灾难和向量稀疏的缺陷。 2因为用到了随机函数删掉了部分特征点并没有考虑这些特征的权值所以模型的参数最终是在一个合理的空间范围内需要进一步的缩小范围然后得到确切得值。 3朴素贝叶斯分类器。朴素贝叶斯在机器学习中非常常见尤其是在文本分类中对于情感分析、垃圾邮件处理等应用比较广泛。但是对于朴素贝叶斯分类算法以后还可以考虑对条件概率的计算方法进行改进。五对本门课的感想、意见和建议过本次实验我熟悉了python语言的语法并可以熟练的使用。同时也培养了我的动手能力“实验就是为了让你动手做去探索一些你未知的或是你尚不是深刻理解的东西。每个步骤我都亲自去做不放弃每次锻炼的机会。经过这一周让我的动手能力有了明显的提高。机器学习课程历时大半个学期做实验时通过自己编写、运行程序不仅可以巩固了以前所学过的知识而且学到了很多在书本上所没有学到过的知识。以前对于编程工具的使用还处于一知半解的状态上但是经过一段上机的实践对于怎么去排错、查错怎么去看每一步的运行结果。不仅巩固了书本所学的知识还具有一定的灵活性发挥了我们的创造才能。通过这次课程设计使我懂得了理论与实际相结合是很重要的只有理论知识是远远不够的只有把所学的理论知识与实践相结合起来从理论中得出结论才能真正提高自己的实际动手能力和独立思考的能力。在设计的过程中遇到问题可以说得是困难重重这毕竟第一次做的难免会遇到过各种各样的问题同时在设计的过程中发现了自己的不足之处对以前所学过的知识理解得不够深刻掌握得不够牢固。这次课程设计终于顺利完成了在设计中遇到了很多编程问题最后在自己的思考以及和同学的讨论中终于迎刃而解。本门课程算是我最喜欢的一门课程了他有完整的机器学习体系可以让我们从0到1合肥工业大学的老师和网课吴恩达老师相辅相成共同助力我们理解机器学习coursera网课配套的实验编程题题引导我一步一步导入数据构建模型评估模型参数优化等为今天的工程设计打下了夯实的基础。六参考文献青盏.朴素贝叶斯模型多元伯努利事件模型多项式事件模型 Multi-Variate Bernoulli Event Model and Multinomial Event Model. https://blog.csdn.net/qq_16234613/article/. 2018吴恩达.Machine Learning. https://www.coursera.org/ .2022

查看全文

http://www.hkea.cn/news/14375735/