当前位置: 首页 > news >正文

单位网站设计建议书高大上的广告公司名字

单位网站设计建议书,高大上的广告公司名字,网站静态化的好处,广州做网站哪个公司做得好一、背景 网络领域的新词发现#xff08;挖掘#xff09;是一个非常重要的nlp课题。在处理文本对象时#xff0c;非常关键的问题在于“切词”这个环节#xff0c;几乎所有的后续结果都依赖第一步的切词。因此切词的准确性在很大程度上影响着后续的处理#xff0c;切词结果…一、背景 网络领域的新词发现挖掘是一个非常重要的nlp课题。在处理文本对象时非常关键的问题在于“切词”这个环节几乎所有的后续结果都依赖第一步的切词。因此切词的准确性在很大程度上影响着后续的处理切词结果的不同也就影响了特征的提取跟数据挖掘一样特征提取的好坏特别重要不论用什么算法特征好数据好结果才会好。 目前很多的切词模块可以处理大部分的通用语料然而有两类文本集仍然处理的不是很好就是 1网络文档 2领域文档 这两类文本的特点在于包含大量新词一般词典的涵盖程度比较低。对于领域文档各领域的专家可以人工构建知识本体拓展已有词库的不健全。 二、判断新词的核心指标 1成词标准1词语的内部凝聚程度要足够高凝聚度要高 凝聚程度用以衡量相邻字组合成词语的程度可以用点间互信息衡量(pointwise mutual information)。 当 x, y 相互独立时x 跟 y 不相关则 p(x , y) p(x)*p(y), PMI 0。PMI值越大成词概率越大。 eg在 5000 万字的样本中, “知” 出现了 150 万次 “乎” 出现了 4 万次。那 “知” 出现的概率为 0.03, “乎” 出现的概率为 0.0008。如果两个字符出现是个独立事件的话”知”、“乎” 一起出现的期望概率是 0.03 * 0.0008 2.4e-05。如果实际上 “知乎” 出现了 3 万次, 则实际上”知”、“乎” 一起出现的概率是 6e-03, 是期望概率的 250 倍。也就是说两个字越相关点间互信息越大。 2成词标准2词语的左右邻字要足够丰富自由度要高 如果一个字符组合可以成词它应当出现在丰富的语境中也就是说拥有丰富的左右邻字。当前文本片段的上文和下文可搭配词语越丰富则其上文信息熵左信息熵和下文信息熵右信息熵越大。 p(w) 表示的是事件 w出现的概率在新词挖掘的时候就是一个词出现的概率。 eg 在文本中出现6000次的“副总裁”和“人工智”字符组合的左熵都在6左右但“副总裁”的右邻字包括 { 张,王,说, ...... } 等147个词而“人工智”的右邻字只有 { 能,障 } 两种显然“人工智”不能称作一个词。 考虑这么一句话“吃葡萄不吐葡萄皮不吃葡萄倒吐葡萄皮”“葡萄”一词出现了4次其中左邻字分别为 {吃, 吐, 吃, 吐} 右邻字分别为 {不, 皮, 倒, 皮} 。根据公式“葡萄”一词的左邻字的信息熵为 – (1/2) · log(1/2) – (1/2) · log(1/2) ≈ 0.693 它的右邻字的信息熵则为 – (1/2) · log(1/2) – (1/4) · log(1/4) – (1/4) · log(1/4) ≈ 1.04 。可见在这个句子中“葡萄”一词的右邻字更加丰富一些。 一般我们取左右信息熵中的最小值。 三、新词挖掘步骤 新词挖掘可以分为三个步骤 生成候选词基于N-gramn-gram假设当前词出现的概率仅仅与前面的 n-1 个单词相关统计获取出现频率较高的短语作为候选项 对候选项进行多维度特征统计词频、凝聚程度、自由度等 将多维度特征进行综合评估排序取top-K 四、新词应用价值 1、提高分词准确率 2、内容安全场景欺诈词库扩充
http://www.hkea.cn/news/14536103/

相关文章:

  • 网站搭建官网平台手机端网站开发
  • 灯具网站怎么做成立公司有什么好处和坏处
  • 网站开发公司 上海抖音怎么运营和引流
  • 成都网站建设报价网站建设得要素
  • 黄埔做网站的公手机怎么做电子书下载网站
  • 哪里找免费网站wordpress的网站怎么让他上线
  • wordpress 清除wordpress中文主程序优化
  • 深圳哪些公司做网站泰安有口碑的企业建站公司
  • 如何买域名发布网站专业做化妆品外包材的招聘网站
  • 网站 版式企业团建公司
  • 公司做彩票网站违法吗网站建设平台计划书
  • 建设网站需要数据库备份泊头市网站建设公司
  • 上海徐汇区网站建设公司小公司做网站赚钱吗
  • 网站建设代码好难啊湖州网站建设官网
  • 沈阳做网站需要多少钱ICP备案网站服务内容
  • 部门网站集约化建设方案无极在线网站播放
  • 山西汽车网站建设布吉建设网站
  • 郓城网站建设费用自适应网站设计
  • 成都网站搜索排名优化公司seo研究中心南宁线下
  • 乡镇网站建设工作计划哈尔滨网站建设2017
  • php网站模板下载WordPress自动文章
  • 网站备案及管理的授权书中国机床行业
  • 兰州市政建设集团办公网站wordpress4.3
  • 网站搜索框怎么做无锡设计公司企业方面
  • 大连 网站维护wordpress主题 图片展示
  • 百度网站权重查询动力网站
  • 网站举报平台wordpress屏蔽右键
  • 网站推广与搜索引擎优化dede 两个网站图片路径
  • 南昌网站设计专业数据分析网官网
  • 怎么用大淘客做网站咨询企业网站模板