当前位置: 首页 > news >正文

网站 aspx 模板烟台建设集团招聘信息网站

网站 aspx 模板,烟台建设集团招聘信息网站,东莞网站制作哪家公司好,固始网站建设公司1、什么是IK分词器 ElasticSearch 几种常用分词器如下#xff1a; 分词器分词方式StandardAnalyzer单字分词CJKAnalyzer二分法IKAnalyzer词库分词 分词∶即把一段中文或者别的划分成一个个的关键字#xff0c;我们在搜索时候会把自己的信息进行分词#xff0c;会把数据库…1、什么是IK分词器 ElasticSearch 几种常用分词器如下 分词器分词方式StandardAnalyzer单字分词CJKAnalyzer二分法IKAnalyzer词库分词 分词∶即把一段中文或者别的划分成一个个的关键字我们在搜索时候会把自己的信息进行分词会把数据库中或者索引库中的数据进行分词然后进行一个匹配操作默认的中文分词是将每个字看成一个词比如“我爱中国会被分为我“爱”“中”国”这显然是不符合要求的所以我们需要安装中文分词器ik来解决这个问题。 IK提供了两个分词算法ik_smart和ik_max_word其中ik smart为最少切分ik_max_word为最细粒度划分! ik_max_word: 会将文本做最细粒度的拆分比如会将中华人民共和国国歌拆分为中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌会穷尽各种可能的组合ik_smart: 会做最粗粒度的拆分比如会将中华人民共和国国歌拆分为中华人民共和国,国歌。 2、下载IK分词器 下载地址IK分词器 下载完毕之后在虚拟机进行部署 首先查看之前安装的Elasticsearch容器的plugins数据卷目录 docker volume inspect es-plugins 结果如下 [{CreatedAt: 2024-11-06T10:06:3408:00,Driver: local,Labels: null,Mountpoint: /var/lib/docker/volumes/es-plugins/_data,Name: es-plugins,Options: null,Scope: local} ] 可以看到elasticsearch的插件挂载到了/var/lib/docker/volumes/es-plugins/_data这个目录。我们需要把IK分词器上传至这个目录。 将刚刚下载的压缩包解压后就可以放入该地址的文件夹中 然后上传至虚拟机的/var/lib/docker/volumes/es-plugins/_data这个目录 最后重启es容器 docker restart es 3、使用IK分词器 IK分词器包含两种模式 ik_smart智能语义切分 ik_max_word最细粒度切分 我们在Kibana的DevTools上来测试分词器首先测试Elasticsearch官方提供的标准分词器 POST /_analyze {analyzer: standard,text: 黑马程序员学习java太棒了 } 结果如下 {tokens : [{token : 黑,start_offset : 0,end_offset : 1,type : IDEOGRAPHIC,position : 0},{token : 马,start_offset : 1,end_offset : 2,type : IDEOGRAPHIC,position : 1},{token : 程,start_offset : 2,end_offset : 3,type : IDEOGRAPHIC,position : 2},{token : 序,start_offset : 3,end_offset : 4,type : IDEOGRAPHIC,position : 3},{token : 员,start_offset : 4,end_offset : 5,type : IDEOGRAPHIC,position : 4},{token : 学,start_offset : 5,end_offset : 6,type : IDEOGRAPHIC,position : 5},{token : 习,start_offset : 6,end_offset : 7,type : IDEOGRAPHIC,position : 6},{token : java,start_offset : 7,end_offset : 11,type : ALPHANUM,position : 7},{token : 太,start_offset : 11,end_offset : 12,type : IDEOGRAPHIC,position : 8},{token : 棒,start_offset : 12,end_offset : 13,type : IDEOGRAPHIC,position : 9},{token : 了,start_offset : 13,end_offset : 14,type : IDEOGRAPHIC,position : 10}] }可以看到标准分词器智能1字1词条无法正确对中文做分词。 我们再测试IK分词器 POST /_analyze {analyzer: ik_smart,text: 黑马程序员学习java太棒了 } {tokens : [{token : 黑马,start_offset : 0,end_offset : 2,type : CN_WORD,position : 0},{token : 程序员,start_offset : 2,end_offset : 5,type : CN_WORD,position : 1},{token : 学习,start_offset : 5,end_offset : 7,type : CN_WORD,position : 2},{token : java,start_offset : 7,end_offset : 11,type : ENGLISH,position : 3},{token : 太棒了,start_offset : 11,end_offset : 14,type : CN_WORD,position : 4}] }3.1、拓展词典 随着互联网的发展“造词运动”也越发的频繁。出现了很多新的词语在原有的词汇列表中并不存在。比如“泰裤辣”“传智播客” 等。 IK分词器无法对这些词汇分词测试一下 POST /_analyze {analyzer: ik_max_word,text: 传智播客开设大学,真的泰裤辣 } 结果 {tokens : [{token : 传,start_offset : 0,end_offset : 1,type : CN_CHAR,position : 0},{token : 智,start_offset : 1,end_offset : 2,type : CN_CHAR,position : 1},{token : 播,start_offset : 2,end_offset : 3,type : CN_CHAR,position : 2},{token : 客,start_offset : 3,end_offset : 4,type : CN_CHAR,position : 3},{token : 开设,start_offset : 4,end_offset : 6,type : CN_WORD,position : 4},{token : 大学,start_offset : 6,end_offset : 8,type : CN_WORD,position : 5},{token : 真的,start_offset : 9,end_offset : 11,type : CN_WORD,position : 6},{token : 泰,start_offset : 11,end_offset : 12,type : CN_CHAR,position : 7},{token : 裤,start_offset : 12,end_offset : 13,type : CN_CHAR,position : 8},{token : 辣,start_offset : 13,end_offset : 14,type : CN_CHAR,position : 9}] }可以看到传智播客和泰裤辣都无法正确分词。 所以要想正确分词IK分词器的词库也需要不断的更新IK分词器提供了扩展词汇的功能。 1打开IK分词器config目录 注意如果采用在线安装的通过默认是没有config目录的需要把课前资料提供的ik下的config上传至对应目录。 2在IKAnalyzer.cfg.xml配置文件内容添加 ?xml version1.0 encodingUTF-8? !DOCTYPE properties SYSTEM http://java.sun.com/dtd/properties.dtd propertiescommentIK Analyzer 扩展配置/comment!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典--entry keyext_dictext.dic/entry /properties 3在IK分词器的config目录新建一个 ext.dic可以参考config目录下复制一个配置文件进行修改 传智播客 泰裤辣 4重启elasticsearch docker restart es # 查看 日志 docker logs -f elasticsearch 再次测试可以发现传智播客和泰裤辣都正确分词了 {tokens : [{token : 传智播客,start_offset : 0,end_offset : 4,type : CN_WORD,position : 0},{token : 开设,start_offset : 4,end_offset : 6,type : CN_WORD,position : 1},{token : 大学,start_offset : 6,end_offset : 8,type : CN_WORD,position : 2},{token : 真的,start_offset : 9,end_offset : 11,type : CN_WORD,position : 3},{token : 泰裤辣,start_offset : 11,end_offset : 14,type : CN_WORD,position : 4}] } 4、总结 分词器的作用是什么 创建倒排索引时对文档分词 用户搜索时对输入的内容分词 IK分词器有几种模式 ik_smart智能切分粗粒度 ik_max_word最细切分细粒度 IK分词器如何拓展词条如何停用词条 利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典 在词典中添加拓展词条或者停用词条
http://www.hkea.cn/news/14404285/

相关文章:

  • 长尾关键词爱站新手小白怎样运营1688店铺
  • 迁安做网站中的cms润强河南省建设信息网站
  • 书店网站建设技术风险免费网站模版建设
  • 农业网站电子商务平台建设方案wordpress网站统计插件下载
  • 我的世界做弊端网站wordpress文章不能写入关键词
  • 网站推广营销策划方案长沙网站建设qq交流群
  • 北京网站制作公司招聘江门关键词优化广告
  • 通辽北京网站建设深圳专业制作网站哪个公司好
  • 福田网站设计公司哪家好做和别人一样的网站
  • 网站的注册江苏国智建设有限公司网站
  • 淘宝联盟怎么做网站做博客网站要怎么配置的服
  • 百度网络营销的概念和含义合肥网站seo推广
  • 好的建站平台易班班级网站建设展示PPT
  • 个体户可以网站备案吗黑彩网站自己可以做么
  • 豪圣建设项目管理网站宁波做外贸网站推广
  • 哈尔滨网站开发方案昆山装饰公司网站建设
  • 网站建站哪个品牌好wordpress 禁用标
  • 网站模板编辑软件辽宁省建设工程信息网a类业绩
  • 怎么seo网站关键词优化wordpress 如何进入数据库
  • 本地php网站搭建环境怎么查看一个网站是不是伪静态
  • 山西手机版建站系统开发公司展示类网站模板
  • 网站备案 网站名称网站超级链接
  • 科技局网站建设方案企业运营管理
  • 做公众号链接的网站做信息网站怎么样
  • 做网站的收费标准网站集约化建设 技术
  • 嘉兴网站制作公司html的视频怎么下载
  • 如何做自己公司网站杭州电商网站建设公司
  • 广州建设营销型网站wordpress出售功能插件
  • 扬中网站建设流程最新国际新闻事件今天
  • 网站开发用的框架金螳螂家装官网