当前位置: 首页 > news >正文

外贸用什么网站好镇江网站搜索优化

外贸用什么网站好,镇江网站搜索优化,手机网站怎么写,市城乡规划建设局网站1、什么是IK分词器 ElasticSearch 几种常用分词器如下#xff1a; 分词器分词方式StandardAnalyzer单字分词CJKAnalyzer二分法IKAnalyzer词库分词 分词∶即把一段中文或者别的划分成一个个的关键字#xff0c;我们在搜索时候会把自己的信息进行分词#xff0c;会把数据库…1、什么是IK分词器 ElasticSearch 几种常用分词器如下 分词器分词方式StandardAnalyzer单字分词CJKAnalyzer二分法IKAnalyzer词库分词 分词∶即把一段中文或者别的划分成一个个的关键字我们在搜索时候会把自己的信息进行分词会把数据库中或者索引库中的数据进行分词然后进行一个匹配操作默认的中文分词是将每个字看成一个词比如“我爱中国会被分为我“爱”“中”国”这显然是不符合要求的所以我们需要安装中文分词器ik来解决这个问题。 IK提供了两个分词算法ik_smart和ik_max_word其中ik smart为最少切分ik_max_word为最细粒度划分! ik_max_word: 会将文本做最细粒度的拆分比如会将中华人民共和国国歌拆分为中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌会穷尽各种可能的组合ik_smart: 会做最粗粒度的拆分比如会将中华人民共和国国歌拆分为中华人民共和国,国歌。 2、下载IK分词器 下载地址IK分词器 下载完毕之后在虚拟机进行部署 首先查看之前安装的Elasticsearch容器的plugins数据卷目录 docker volume inspect es-plugins 结果如下 [{CreatedAt: 2024-11-06T10:06:3408:00,Driver: local,Labels: null,Mountpoint: /var/lib/docker/volumes/es-plugins/_data,Name: es-plugins,Options: null,Scope: local} ] 可以看到elasticsearch的插件挂载到了/var/lib/docker/volumes/es-plugins/_data这个目录。我们需要把IK分词器上传至这个目录。 将刚刚下载的压缩包解压后就可以放入该地址的文件夹中 然后上传至虚拟机的/var/lib/docker/volumes/es-plugins/_data这个目录 最后重启es容器 docker restart es 3、使用IK分词器 IK分词器包含两种模式 ik_smart智能语义切分 ik_max_word最细粒度切分 我们在Kibana的DevTools上来测试分词器首先测试Elasticsearch官方提供的标准分词器 POST /_analyze {analyzer: standard,text: 黑马程序员学习java太棒了 } 结果如下 {tokens : [{token : 黑,start_offset : 0,end_offset : 1,type : IDEOGRAPHIC,position : 0},{token : 马,start_offset : 1,end_offset : 2,type : IDEOGRAPHIC,position : 1},{token : 程,start_offset : 2,end_offset : 3,type : IDEOGRAPHIC,position : 2},{token : 序,start_offset : 3,end_offset : 4,type : IDEOGRAPHIC,position : 3},{token : 员,start_offset : 4,end_offset : 5,type : IDEOGRAPHIC,position : 4},{token : 学,start_offset : 5,end_offset : 6,type : IDEOGRAPHIC,position : 5},{token : 习,start_offset : 6,end_offset : 7,type : IDEOGRAPHIC,position : 6},{token : java,start_offset : 7,end_offset : 11,type : ALPHANUM,position : 7},{token : 太,start_offset : 11,end_offset : 12,type : IDEOGRAPHIC,position : 8},{token : 棒,start_offset : 12,end_offset : 13,type : IDEOGRAPHIC,position : 9},{token : 了,start_offset : 13,end_offset : 14,type : IDEOGRAPHIC,position : 10}] }可以看到标准分词器智能1字1词条无法正确对中文做分词。 我们再测试IK分词器 POST /_analyze {analyzer: ik_smart,text: 黑马程序员学习java太棒了 } {tokens : [{token : 黑马,start_offset : 0,end_offset : 2,type : CN_WORD,position : 0},{token : 程序员,start_offset : 2,end_offset : 5,type : CN_WORD,position : 1},{token : 学习,start_offset : 5,end_offset : 7,type : CN_WORD,position : 2},{token : java,start_offset : 7,end_offset : 11,type : ENGLISH,position : 3},{token : 太棒了,start_offset : 11,end_offset : 14,type : CN_WORD,position : 4}] }3.1、拓展词典 随着互联网的发展“造词运动”也越发的频繁。出现了很多新的词语在原有的词汇列表中并不存在。比如“泰裤辣”“传智播客” 等。 IK分词器无法对这些词汇分词测试一下 POST /_analyze {analyzer: ik_max_word,text: 传智播客开设大学,真的泰裤辣 } 结果 {tokens : [{token : 传,start_offset : 0,end_offset : 1,type : CN_CHAR,position : 0},{token : 智,start_offset : 1,end_offset : 2,type : CN_CHAR,position : 1},{token : 播,start_offset : 2,end_offset : 3,type : CN_CHAR,position : 2},{token : 客,start_offset : 3,end_offset : 4,type : CN_CHAR,position : 3},{token : 开设,start_offset : 4,end_offset : 6,type : CN_WORD,position : 4},{token : 大学,start_offset : 6,end_offset : 8,type : CN_WORD,position : 5},{token : 真的,start_offset : 9,end_offset : 11,type : CN_WORD,position : 6},{token : 泰,start_offset : 11,end_offset : 12,type : CN_CHAR,position : 7},{token : 裤,start_offset : 12,end_offset : 13,type : CN_CHAR,position : 8},{token : 辣,start_offset : 13,end_offset : 14,type : CN_CHAR,position : 9}] }可以看到传智播客和泰裤辣都无法正确分词。 所以要想正确分词IK分词器的词库也需要不断的更新IK分词器提供了扩展词汇的功能。 1打开IK分词器config目录 注意如果采用在线安装的通过默认是没有config目录的需要把课前资料提供的ik下的config上传至对应目录。 2在IKAnalyzer.cfg.xml配置文件内容添加 ?xml version1.0 encodingUTF-8? !DOCTYPE properties SYSTEM http://java.sun.com/dtd/properties.dtd propertiescommentIK Analyzer 扩展配置/comment!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典--entry keyext_dictext.dic/entry /properties 3在IK分词器的config目录新建一个 ext.dic可以参考config目录下复制一个配置文件进行修改 传智播客 泰裤辣 4重启elasticsearch docker restart es # 查看 日志 docker logs -f elasticsearch 再次测试可以发现传智播客和泰裤辣都正确分词了 {tokens : [{token : 传智播客,start_offset : 0,end_offset : 4,type : CN_WORD,position : 0},{token : 开设,start_offset : 4,end_offset : 6,type : CN_WORD,position : 1},{token : 大学,start_offset : 6,end_offset : 8,type : CN_WORD,position : 2},{token : 真的,start_offset : 9,end_offset : 11,type : CN_WORD,position : 3},{token : 泰裤辣,start_offset : 11,end_offset : 14,type : CN_WORD,position : 4}] } 4、总结 分词器的作用是什么 创建倒排索引时对文档分词 用户搜索时对输入的内容分词 IK分词器有几种模式 ik_smart智能切分粗粒度 ik_max_word最细切分细粒度 IK分词器如何拓展词条如何停用词条 利用config目录的IkAnalyzer.cfg.xml文件添加拓展词典和停用词典 在词典中添加拓展词条或者停用词条
http://www.hkea.cn/news/14544302/

相关文章:

  • 泉州做网站的从化一站式网站建设
  • sketch可以做网站交互么衡水网站网站建设
  • 河南做网站企起网站运营与管理的对策建议
  • 网站加速工具北京vi设计公司有哪些
  • 网站系统设计为企业做网站电话开场白
  • 快速html5网页设计的网站网站策划方案范文
  • 深圳网站排名优化公司网站制作软件手机版
  • 跟网站做流量用asp.net开发网站的优势
  • 中山做外贸网站二手车网站开发PPT
  • 泉州网站建设哪家公司好wordpress文字排版
  • 朔州公司做网站怎么提交网站地图
  • 网站一般用什么工具做做网站什么是三网合一
  • 兰州拼团网站建设河南建设信息网首页
  • 微信群拉人的营销方法提供搜索引擎优化公司
  • 郴州网站开发wordpress定制网页
  • 国外网站免费dnswordpress apple pro
  • 手机创建自己网站成都网站建设推广好
  • 招聘网站开发技术维护智能网站建设维护
  • 织梦体育网站模板郑州微网站建设公司
  • 网站注册要多少钱长沙网上商城开发
  • 室内设计平面图手绘图深圳网站优化方案
  • 唐汉网站建设动易网站管理系统
  • 网站 网站 建设工作人员回应游客扔免费午餐
  • 成都网站建设收费天元建设集团有限公司商业承兑汇票拒付最新消息
  • 北京网站建设哪家强营销型企业网站建设的内容
  • 外贸网站模板设计做网站必须会php吗
  • 米拓网站建设教程商业网站的创建程序
  • 阿里云腾讯云网站建设旅游网站建设ppt模板下载
  • 短视频推广引流方案免费下载百度seo
  • 网站建设模块分析电影网站建设步骤