当前位置: 首页 > news >正文

钓鱼网站链接怎么做高端网站设计培训机构

钓鱼网站链接怎么做,高端网站设计培训机构,微信官方网站首页,wordpress倒计时一 分词基础 NLP:搭建了计算机语言和人类语言之间的转换 1 精确分词#xff0c;试图将句子最精确的分开#xff0c;适合文本分析 import jiebacontent 工信处女干事每月经过下属科室jieba.cut(content,cut_all …一 分词基础 NLP:搭建了计算机语言和人类语言之间的转换 1 精确分词试图将句子最精确的分开适合文本分析 import jiebacontent 工信处女干事每月经过下属科室jieba.cut(content,cut_all False) generator object Tokenizer.cut at 0x0000026F1DA55DE0jieba.lcut(content cut_all False)File stdin, line 1jieba.lcut(content cut_all False)^ SyntaxError: invalid syntaxjieba.lcut(content, cut_all False) Building prefix dict from the default dictionary ... Dumping model to file cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache Loading model cost 0.797 seconds. Prefix dict has been built successfully. [工信处, 女干事, 每月, 经过, 下属, 科室]2 全模式分词把句子中所有的可以成词的词语都扫描出来速度很快但是不能消除歧义 jieba.lcut(content, cut_all Ture) Traceback (most recent call last):jieba.lcut(content, cut_all True) [工信处, 处女, 女干事, 干事, 每月, 月经, 经过, 下属, 科室]3 搜索引擎模式分词 在精确模式的基础上对长词再次切分提高召回率适用于搜索引擎分词 jieba.cut_for_search(content) generator object Tokenizer.cut_for_search at 0x0000026F1DA55DE0jieba.lcut_for_search(content) [工信处, 干事, 女干事, 每月, 经过, 下属, 科室]4 繁体字 5 用户自定义字典 jieba内部有自己的一个词典库但是允许用户自己自定义补充词典 import jiebajieba.lcut(八一双鹿更名为八一南昌篮球队) Building prefix dict from the default dictionary ... Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache Loading model cost 0.729 seconds. Prefix dict has been built successfully. [八, 一双, 鹿, 更名, 为, 八一, 南昌, 篮球队]jieba.load_userdict(./userdict.txt)jieba.lcut(八一双鹿更名为八一南昌篮球队) [八一双鹿, 更名, 为, 八一, 南昌, 篮球队]cmd常用编辑命令 退出python环境ctrlz 然后回车 创建文件vim 写文件 6 中英文分词工具 hanlp 中文分词 import hanlp tokenizer hanlp.load(CTB6_CONVSEG) tokenizer(工信处女干事每月经过下属科室)英文分词 import hanlp tokenizer hanlp.utils.rules.tokenizer_english(CTB6_CONVSEG) tokenizer(Mr. Hankcs bought hankcs.com for 1.5 thousand dollars.)1 命名实体识别把任意的专有名词识别出来 import hanlp //中文实体识别 recongnizer hanlp.load(hanlp.pretrained.ner.MSRA_NER_BERT_BASE_ZH) recongnizer (list(上海华安工业集团公司董事长谭旭光和秘书张晚霞来到美国纽约现代艺术博物馆参观))//英文实体识别 recongnizer hanlp.load(hanlp.pretrained.ner.CONLL03_NER_BERT_BASE_UNCASED_EN)6 词性标注每一个次不仅要分开还要标记词性。是建立在分词的基础上 import jieba.posseg as psegpseg.lcut(我爱北京天安门) Building prefix dict from the default dictionary ... Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache Loading model cost 0.725 seconds. Prefix dict has been built successfully. [pair(我, r), pair(爱, v), pair(北京, ns), pair(天安门, ns)]二 文本张量 1 ONE-HOT 维度灾难数据多长就需要多长的维度数据之间的相似性无法衡量余弦相似度计算相似度所有结果都是0 矩阵里面的每一行数据表示一个词。计算机能识别一一对应 1one-hot编码器实现 from sklearn.externals import joblib from keras.preprocessing.text import Tokenizer vocab {周杰伦,陈奕迅, 王力宏, 李宗盛 } //num_wordsNone意味着不限制词汇表的大小 //char_levelFalse表示按词处理文本而不是按字符 t Tokenizer(num_words None, char_level False) t.fit_on_texts(vocab) //使用提供的词汇表对Tokenizer进行训练构建词汇索引 for token in vocab:zero_list [0]*len(vocab) //创建一个与词汇表长度相等的全零列表zero_list//t.texts_to_sequences([token])将词转换为其对应的索引序列。//[0][0]从嵌套列表中提取实际的索引值//-1调整索引使其从0开始。token_index t.texts_to_sequences([token])[0][0] -1zero_list [token_index ] 1print(token, one-hot 编码是,zero_list )//使用joblib.dump保存训练好的Tokenizer对象到指定路径 tokenizer_path ./Tokenizer joblib.dump(t,tokenizer_path)李宗盛 one-hot 编码是 [1, 0, 0, 0] 周杰伦 one-hot 编码是 [0, 1, 0, 0] 陈奕迅 one-hot 编码是 [0, 0, 1, 0] 王力宏 one-hot 编码是 [0, 0, 0, 1] 2one-hot编码器使用 from sklearn.externals import joblib t joblib.load(./Tokenizer); token 周杰伦 token_index t.texts_to_sequences([token])[0][0] -1 zero_list [0]*4 zero_list[token_index] 1 print(token, one-hot code :,zero_list)3one-hot 编码优劣 2 word2vec 重要假设离得越近的词语相似度越高中心词的上下文是由什么来规定的由窗口大小来限定窗口限制外的非上下文词太多了导致负样本太多所以只能采样一部分来作为负样本如何评估词向量可视化输出相关度比较高的词语类比实验 缺点 (1) CBOW (2) skipgram (3) skipgram (4) 案例运行 cmd上进入python环境运行 数据准备 mkdir data unzip data/enwik9.zip -d data head -10 data/enwik9 perl wikifil.pl data/enwik9 data/fil9 head -c 80 data/fil9训练词向量 三 CMD 内安装jupyter 参考链接可在不同地方安装该插件 直接打开CMD,然后直接输入pip install jupyter 即安装完毕 然后输入jupyter notebook即运行jupyter会出现一个网页然后选Desktop,右上角创建Folder,最后在Folder里面创建.py文件即可
http://www.hkea.cn/news/14412488/

相关文章:

  • 滁州做网站网站建设合同 域名续期
  • 中学生网站源码龙岗网站建设哪家好
  • 自己如何建设网站最近韩国电影片免费韩国在线观看
  • 涂料网站模版北京网站开发公司电话
  • ps毕业设计做网站界面wordpress用户密码原理
  • 在哪里能建免费的网站网页编辑软件中文版
  • 中国室内设计师联盟网站佛山高端网站建设公司
  • 一键生成淘宝主图的软件旺道seo软件技术
  • 网站建设需要多钱什么平台引流最快
  • 重庆旅游网站建设公司4399小游戏大全网页版
  • 徐州专业建站公司网站的关键词可以取消吗
  • 网站背景图片素材 唯美wordpress编辑器前端
  • vps搭建网站百度快照是干什么的
  • 世界500强企业国家排名网络网站推广首荐乐云seo
  • 广州seo网站优化培训百度seo查询系统
  • 设计素材网站排行榜手机全屋定制设计app
  • 鞍山外国网站制作PHP+Ajax网站开发典型实例
  • 多少钱网站设计网站服务器建设软件
  • 绿色配色的网站seo简介
  • 专题网站建设的请示广东网站建设咨询电话
  • 建设网站企业邮箱网站建设服务小型办公室装修
  • 公司网站翻译工作怎么做网站搭建规划
  • 现在哪个招聘网站做的比较好新手开装修公司怎样做
  • 住房和城乡建设部网站防排烟网站首页404
  • 在床上做很黄很暴力网站个人域名备案需要什么
  • 如何防止网站挂马郑州做网站的专业公司
  • 做网站 证书 浏览器ps做网站logo
  • 佛山小网站建设seo推广哪家好
  • 软件介绍网站模板html5网站开发软件
  • 做公司员工福利的网站都有哪些中国房产网