当前位置: 首页 > news >正文

安阳做推广网站做百度网站营业执照用注销吗

安阳做推广网站,做百度网站营业执照用注销吗,基地网站建设方案,列举电子商务网站建设需要的语言一、任务目标 #xff08;1#xff09;用合适的格式读取文本数据 #xff08;2#xff09;使用jieba分词对文本数据进行分词#xff0c;并可视化分词效果 #xff08;3#xff09;设计停止词表#xff0c;对文本数据的多余部分进行删除 #xff08;4#xff09;对文本…一、任务目标 1用合适的格式读取文本数据 2使用jieba分词对文本数据进行分词并可视化分词效果 3设计停止词表对文本数据的多余部分进行删除 4对文本数据进行词云展示 5TF-IDF提取关键词 6LDA主题模型 7新闻数据分类 二、代码及效果 1导入包 #导入必须的包 import pandas as pd import jieba import numpy2读取文本数据 df_news pd.read_table(./data/val.txt,name[category,theme,url,content],encoding utf-8) df_news df_news.dropna(axis0)#删除掉一行数据中有缺失项的 df_news.head()#读取前几条信息 df_news.shape #查看数据规模3使用jieba进行分词 content df_news.content.values.tolist() #将数据df_news里面的content转换成list数据方便jieba进行分词 print(content[1000]) #展示分词前的数据内容content_S[] #预设定存入分词后的数据 for line in content:current_segment jieba.lcut(line) #进行分词处理if(len(current_segment)1 and current_segment !\r\n): #加入换行符content_S.append(current_segment) #将分词结果存入content_S[1000] #展示分词效果df_content pd.DataFrame({content_S:content_S}) #可视化每一条文本数据的分词结果 df_content.head()4设计停止词表对文本数据的多余部分进行删除可视化所有词并统计次数 stopwords pd.read_csv(stopwords.txt,index_col False, sep\t,quoting3,names[stopwords]) stopwords.head(20)def drop_stopwords(contents,stopwords):contents_clean[]all_words[]for line in contents:line_clean[]for word in line:if word in stopwords:continueline_clean.append(word)all_words.append(str(word))contents_clean.append(line_clean)return contents_clean,all_wordscontents df_content.content_S.values.tolist() stopwords stopwords.stopword.values.tolist() contents_clean,all_words drop_stopwords(contents,stopwords)df_content pd.DataFrame({contents_cleadn:contents_clean}) df_content.headdf_all_words pd.DataFrame({all_words:all_words}) words_count df_all_words.groupby(by[all_words])[all_words].agg({count:numpy.size}) words_count words_count.reset_index().sort_values(by[count],ascending False) words_count.head()5词云展示 import matplotlib.pyplot as plt from wordcloud import WordCloud import matplotlibmatplotlib.rcParams[figure.figsize] (10.0,5.0) wordcloud WordCloud(font_path ./data/simhei.ttf,background_colorwhite,max_front_size80) word_frequence {x[0]: x[1] for x in words_count.head(100).values} wordcloud wordcloud.fit_words(word_frequence) plt.imshow(wordcloud)6TF-IDF提取关键词 import jieba.analyse index 2000 print(df_news[content][index]) content_S_str.join(content_S[index]) print(.join(jieba.analyse.extract_tags(content_S_str,topK10,withWeightFalse)))7LDA主题模型 from gensim import corpora,models,similarities import gensimdictionary corpora.Dictionary(contents_clean) corpus [dictionary.doc2bow(sentence) for sentence in contents_clean] lda gensim.models.ldamodel.LdaModel(corpuscorpus,id2worddictionary,num_topics20) print(lda.print_topic(1,topn5))8基于贝叶斯算法的新闻数据分析 df_train pd.DataFrame({contents_clean:contents_clean,label:df_news[category]}) df_train.tail()df_train.label.unique() label_mapping {汽车:1,财经:2,科技:3,健康:4,体育:5,教育:6,文化:7,军事:8,娱乐:9,时尚:0} df_train[label]df_train[label].map(label_mapping)from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test train_test_split(df_train[contents_clean].values, df_train[label].values,random_state1)words [] for line_index in range(len(x_train)):try:words.append( .join(x_train[line_index]))except:print(line_index)print(words[0]) print(len(words))from sklearn.feature_extraction.text import CountVectorizer vec CountVectorizer(analyzer word, max_features4000, lowercaseFalse) vec.fit(words)from sklearn.naive_bayes import MultinomialNB classifier MultinomialNB() classifier.fit(vec.transform(words), y_train)test_words [] for line_index in range(len(x_test)):try:test_words.append( .join(x_test[line_index]))except:print(line_index) test_words[0]print(classifier.score(vec.transform(test_words),y_test))
http://www.hkea.cn/news/14544561/

相关文章:

  • 镇江网站关键字优化机构腰膝酸软乏力是肾阴虚还是肾阳虚
  • wordpress仿站流程法人查询企业名称
  • 织梦网站后台打不开网站推广途径和要点
  • 长沙网站微信开发做英文网站哪里好
  • 东莞大朗网站建设想给学校社团做网站
  • 个人如何申请网站免费的crm系统推荐
  • 网站开发创业计划书模板长沙市网站推广电话
  • 东莞微信网站建设怎样曲靖网站推广
  • 网站备案对网站负责人的要求wordpress批量给图片加水印
  • 网站可以做系统吗佛山做seo推广公司
  • 哈尔滨网站搭建的价格郑州seo推广外包
  • 企业手机网站建设推广网站广告的图片怎么做
  • 宁海网站建设南昌市建设工程质量监督网站
  • 网站备案流程何时改做ppt的网站兼职
  • 网站建设实施规范wordpress 手机站
  • 网站建设课程设计做虾苗网站有哪些流程
  • 上海市建设部注册中心网站建筑公司企业愿景模板平台
  • 亚马逊网站的建设目标深圳快速seo排名优化
  • 诸城高密网站建设泰山信息科技有限公司
  • 网站备案个人承诺书网络推广员怎么做
  • 南昌哪个网站建设比较好加盟代理好项目农村
  • html网站设计模板下载江苏体育建设场地网站
  • 企业门户网站建设网站 备案号 放置
  • seo网站推广杭州专门做招商的网站是什么意思
  • 电脑登录不了建设银行网站seo关键词优化外包
  • 福州网站关键排名app推广运营是做什么的
  • 在自己的网站做外链医疗电子网站建设
  • 网站建设公司推网页设计模板html代码总结知识点
  • 张家口万全区建设网站深圳画册设计专业公司
  • wordpress 延时加载js优化关键词怎么做