当前位置: 首页 > news >正文

南宁希噢网站开发工作室聊城找个人做网站

南宁希噢网站开发工作室,聊城找个人做网站,做网站关键词优化的公司,江苏国龙翔建设公司网站需求 **文本推荐#xff1a;**有多个文本字符串#xff0c;如何设计一个简单的统计方法#xff08;从词频的角度设计#xff09;#xff0c;来计算出多个文本字符串两两之间的相似度#xff0c;并输出大于指定相似度阈值的文本 分析理解 使用Java实现文本相似度计算的…需求 **文本推荐**有多个文本字符串如何设计一个简单的统计方法从词频的角度设计来计算出多个文本字符串两两之间的相似度并输出大于指定相似度阈值的文本 分析理解 使用Java实现文本相似度计算的一种方法是通过构建词频向量并计算余弦相似度具体介绍如下简单易懂 代码实现 复杂粘贴可以直接运行 !-- 使用HanLP进行分词 --dependencygroupIdcom.hankcs/groupIdartifactIdhanlp/artifactIdversionportable-1.8.4/version/dependencyimport com.hankcs.hanlp.tokenizer.StandardTokenizer; import java.util.*; import java.util.stream.Collectors;public class ChineseTextRecommender {// 使用HanLP进行中文分词// 构建词频向量// 假设我们有两个文本文档我们想衡量它们的主题相似性。每个文档可以被表示为一个向量其中包含词频TF或TF-IDF值。// 文档A: the cat sat on the mat on the mat// 文档B: the cat and the dog played// 我们选择几个关键词the, cat, sat, on, mat, and, dog, played。每个词在文档中出现的次数词频可以构成一个向量。// 向量A: [2, 1, 1, 1, 2, 0, 0, 0]the, cat, sat, on, mat, and, dog, played// 向量B: [1, 1, 0, 0, 0, 1, 1, 1]public static MapString, Integer buildTermVector(String text) {ListString words StandardTokenizer.segment(text).stream().map(term - term.word).collect(Collectors.toList());MapString, Integer termVector new HashMap();for (String word : words) {termVector.put(word, termVector.getOrDefault(word, 0) 1);}return termVector;}// 计算余弦相似度public static double cosineSimilarity(MapString, Integer vectorA, MapString, Integer vectorB) {double dotProduct 0.0;double normA 0.0;double normB 0.0;for (String key : vectorA.keySet()) {dotProduct vectorA.get(key) * (vectorB.getOrDefault(key, 0));normA Math.pow(vectorA.get(key), 2);}for (String key : vectorB.keySet()) {normB Math.pow(vectorB.get(key), 2);}if (normA 0 || normB 0) {return 0.0;}return dotProduct / (Math.sqrt(normA) * Math.sqrt(normB));}// 推荐与指定文本相似度高的文本 texts为待判断文本列表public static ListString recommendTexts(ListString texts, String targetText, double threshold) {MapString, Double similarityScores new HashMap();MapString, Integer targetVector buildTermVector(targetText);for (String text : texts) {MapString, Integer textVector buildTermVector(text);double similarity cosineSimilarity(targetVector, textVector);similarityScores.put(text, similarity);System.out.println(text ----Similarity: similarity);}return similarityScores.entrySet().stream().filter(entry - entry.getValue() threshold).map(Map.Entry::getKey).collect(Collectors.toList());}public static void main(String[] args) {// 相似度分别为0.91 0.59 0.54 0.799 0.791ListString texts Arrays.asList(这是一个测试文档吗, 这是第二个文档, 这是第三个文档,这是一个文档吗,这是第一个测试文档吧哈哈);String targetText 这是一个测试文档;double threshold 0.8; // 理论上阈值在0.5左右都可以接受ListString recommendedTexts recommendTexts(texts, targetText, threshold);System.out.println(推荐文本:);recommendedTexts.forEach(System.out::println);} }输出结果
http://www.hkea.cn/news/14438348/

相关文章:

  • 中企动力做网站怎么样北京 工业网站建设公司
  • 校园图书回收网站建设展示型网站制作公司
  • 合肥昱天建设有限公司网站常州网站价格
  • 建设网站的流程图乐清做网站的公司有哪些
  • 买了一个域名怎么做网站wordpress无法创建配置文件
  • 网站总体结构天津网站建设有哪些
  • 2019做网站seo行不行淘宝流量网站
  • 网站建设需要考虑的问题网站建设费用自建
  • 企业网站排名软件度智能优化公司官网建设方案
  • 深圳企业建设网站网站建设的 文献综述
  • wordpress文章时间轴seo优化是什么职业
  • 福州长乐网站建设瑞丽网站建设
  • 上海logo在线制作郑州seo价格
  • 外贸网站建站注意事项国内 设计网站的公司
  • 怎么样创建一个网站应用宝下载
  • 十堰建网站wordpress悬浮
  • 河北公司网站建设效果企业画册印刷
  • 手机最全的网站珠海seo海网站建设
  • 发稿平台seo搜索优化怎么做
  • 织梦做的网站打包在dw修改邯郸市住房和城乡建设网站
  • 中国电力建设集团股份有限公司网站个人如何注册微信公众号怎么创建
  • 北京网站建设备案矢量网站动画怎么做
  • 个体户 建设网站网站代理加盟赚钱吗
  • 怎么做简单的网站首页品牌logo图片设计制作
  • 吴中区做网站linux运维是必死之路
  • 如何快速更新网站快照免费建建网站
  • 做企业网站排名优化要多少钱襄阳电商网站建设
  • 挂机宝做网站站酷网官网进入
  • 网站建设丶金手指下拉13服务质量好的外贸营销系统
  • 网站备案名称规定wordpress后台登陆模板