当前位置: 首页 > news >正文

网站代备案公司名称搜索关键词排行榜

网站代备案公司名称,搜索关键词排行榜,沈阳网站建设哪家便宜,东营网站建设教程对于类似于头条客户端而言,推荐的每一刷的新闻都必须是不同的新闻,这就需要对新闻文本进行排重。传统的去重一般是对文章的url链接进行排重,但是对于抓取的网页来说,各大平台的新闻可能存在重复,对于只通过文章url进行排重是不靠谱的,为了解决这个痛点于是就提出了用simh…对于类似于头条客户端而言,推荐的每一刷的新闻都必须是不同的新闻,这就需要对新闻文本进行排重。传统的去重一般是对文章的url链接进行排重,但是对于抓取的网页来说,各大平台的新闻可能存在重复,对于只通过文章url进行排重是不靠谱的,为了解决这个痛点于是就提出了用simhash来解决这个难题。 简介 传统的Hash算法只负责将原始内容尽量均匀随机地映射为一个签名值,原理上仅相当于伪随机数产生算法。即便是两个原始内容只相差一个字节,所产生的签名也很可能差别很大,所以传统的Hash是无法在签名的维度上来衡量原内容的相似度。 SimHash本身属于一种局部敏感hash,其主要思想是降维,将高维的特征向量映射成低维的特征向量,再通过比较两个特征向量的汉明距离(Hamming Distance)来确定文章之间的相似性。一般海明距离为3就代表两篇文章相同。 什么是局部敏感呢?假设A,B具有一定的相似性,在hash之后,仍能保持这种相似性,就称之为局部敏感hash      simhash也有其局限性,在处理小于500字的短文本时,simhash的表现并不是很好,所以在使用simhash前一定要注意这个细节。 汉明距离 Hamming Distance,又称汉明距离,在信息论中,等长的两个字符串之间的汉明距离就是两个字符串对应位置的不同字符的个数。即将一个字符串变换成另外一个字符串所需要替换的字符个数,可使用异或操作。 例如: 1011与1001之间的汉明距离是1。 simHash具体流程 simHash算法总共分为5
http://www.hkea.cn/news/14284288/

相关文章:

  • 做挂广告网站教学网站前台模板
  • 布局网站开发架设网站是自己架设服务器还是租服务器
  • 静安建设网站wordpress4.8
  • 中国建设银行宁夏分行网站免费域名注册查询入口
  • 网站一键生成平面设计速成班
  • 甘孜州住房和城乡规划建设局网站洛阳霞光营销型网站
  • 动易网站管理重庆网站制
  • 网站建设通讯设备中企动力网站动效
  • 备案 新增网站重庆璧山网站制作公司哪家专业
  • 鹤壁做网站的公司商城网站开发设计
  • 长沙微信网站公司生成二维码的小程序
  • 创造自己的网站酒店 网站建设 中企动力
  • 石家庄建行网站江西中创建设工程有限公司网站
  • 一个网站的建站流程网站建设维护需要懂哪些知识
  • 网站搭建运营二级分销软件
  • 制作网站培训学校wordpress教程dara
  • 可以做图片视频的网站郑州网站建设修改
  • 高仿卡西欧手表网站制作大型网站开发
  • 营销网站建设方案网站收录查询api
  • dede网站建设步骤郑州seo培训
  • 华为荣耀官网网站外贸网站建设推广
  • 做企业品牌网站的公司qq头像网站源码
  • 苏州网站制作搭建网上销售渠道
  • 大连网站推广招聘找平面设计师网站
  • 讯美 深圳网站建设wordpress 本地化
  • 家里公网宽带做网站要备案么做网站还 淘宝
  • 深圳建设网站top028唐山哪里有做网站的
  • 邢台市做网站电话会网站建设如何找工作
  • 如何自己做网站挣钱牡丹江营商环境建设监督局网站
  • 怎么使用dw做一个网站上海做家庭影院的公司网站