当前位置: 首页 > news >正文

凡科建站官网地址page如何转wordpress

凡科建站官网地址,page如何转wordpress,诸暨网站建设书生商友,用php做购物网站案例前言: 继续之前的 向爬虫而生---Redis 基石篇5 #xff1c;拓展Zset#xff1e;-CSDN博客 一些比较基础的redis类型在初中级阶段用着没有毛病,但是到了大数据时代,慢慢一些更高级的场景,就需要把这几个类型搬出来了! 正文: 概念: 当我们需要对一个大型数据集进行去重计…前言: 继续之前的 向爬虫而生---Redis 基石篇5 拓展Zset-CSDN博客 一些比较基础的redis类型在初中级阶段用着没有毛病,但是到了大数据时代,慢慢一些更高级的场景,就需要把这几个类型搬出来了! 正文: 概念: 当我们需要对一个大型数据集进行去重计数时传统的集合或者基数计数方法可能会面临内存消耗较大的问题。这时Redis的HyperLogLogHLL数据结构就可以派上用场了。 HyperLogLog是一种基数估计算法它可以通过占用固定的内存空间来估计一个集合中不重复元素的数量而无需存储实际的元素。它的特点是具有较小的内存占用和高度的近似精度。 下面是一些关键概念和特性 基础原理 HyperLogLog使用随机哈希函数将输入元素映射到一个固定长度的二进制字符串。这些二进制字符串被组织为一个位图其中每个位被用于存储零或一。通过统计位图中置为一的位的数量就可以估计不重复元素的数量。 精度和误差 HyperLogLog可以提供高度的近似精度一般误差在0.81%以内(官方给的数据,其实可以忽略)。在正常情况下随着不重复元素数量增加误差会保持在相对稳定的范围内。 容量和内存占用 HyperLogLog的固定内存占用仅取决于预先设定的精度和要统计的元素数量。这意味着无论原始集合大小如何都能以相对较小的内存占用进行近似计数---大约12KB。 数据合并 HyperLogLog提供了数据合并的功能即多个HLL数据结构可以合并为一个而不会对计数结果产生明显的影响。 Redis命令 在Redis中可以使用以下命令进行HyperLogLog操作PFADD、PFCOUNT、PFMERGE等。通过这些命令可以添加元素、获取近似计数以及合并HLL数据结构。 Redis中提供了以下命令用于操作HyperLogLog数据结构 1.PFADD key element [element ...] 将一个或多个元素添加到给定的HyperLogLog数据结构中。 2.PFCOUNT key [key ...] 估计给定HyperLogLog数据结构中的不重复元素数量。 3.PFMERGE destkey sourcekey [sourcekey ...] 将多个HyperLogLog数据结构合并到一个目标HyperLogLog中。 4.PFDEBUG subcommand [arguments ...] 调试命令用于在Redis服务器端打开或关闭HyperLogLog的内部低级别调试。 (这些命令可以通过执行REDIS-cli命令行工具或者在编程语言中使用Redis客户端库来进行操作。) PS:HyperLogLog命令的返回值通常是一个近似的基数计数结果而不是实际元素的列表或详细信息。这是因为HyperLogLog是一种基数估计算法它通过占用固定的内存空间来估计不重复元素的数量而不存储实际的元素。 例子说明: 当我们需要统计网站的独立访客数量时HyperLogLog可以提供一种高效的方法。 假设有一个在线论坛我们想要统计每天访问论坛的独立用户数量(就是他独立的识别地址)。 首先我们可以使用HyperLogLog数据结构来进行统计。我们可以在Redis中创建一个新的HyperLogLog结构并使用PFADD命令将每个访问者的唯一标识添加到HyperLogLog中。 例如当一个用户访问论坛时我们会执行以下命令 PFADD daily_visitors 1001这将把用户的唯一标识这里使用1001作为示例---实际一般会是ip地址或者别的例如个人识别信息之类添加到名为daily_visitors的HyperLogLog中。 在每次用户访问时我们都可以执行相同的命令来将唯一标识添加到HyperLogLog中。 接下来我们可以使用PFCOUNT命令来获取近似的独立访客数量 PFCOUNT daily_visitors这将返回一个大致的独立访客数量而无需存储每个访问者的唯一标识。 另外如果我们需要合并不同时间段的独立访客数量可以使用PFMERGE命令。例如假设我们想要合并今天和昨天的独立访客数量 PFMERGE combined_visitors daily_visitors_today daily_visitors_yesterday这会将今天和昨天的独立访客数量合并到名为combined_visitors的HyperLogLog中。 应用到scrapy: 当使用HyperLogLog进行URL去重时可以使用URL的哈希值作为唯一标识。 import hashlib import redis import scrapy from scrapy.exceptions import CloseSpider# 创建Redis连接 redis_client redis.Redis()class MySpider(scrapy.Spider):name my_spiderdef start_requests(self):urls [http://www.example.com/page1,http://www.example.com/page2,http://www.example.com/page1, # 重复的URL]for url in urls:url_hash self.get_url_hash(url)if redis_client.sadd(url_hashes, url_hash) 1:yield scrapy.Request(url, callbackself.parse)else:self.logger.info(URL already crawled: %s, url)def parse(self, response):# 处理返回的网页数据# ...def get_url_hash(self, url):# 计算URL的哈希值作为唯一标识url_hash hashlib.sha1(url.encode()).hexdigest()return url_hash在这个示例中我们创建了一个名为MySpider的Spider类。在start_requests方法中我们定义了一些示例URL并使用get_url_hash方法计算URL的哈希值作为唯一标识。然后我们使用Redis的sadd命令将唯一标识添加到名为url_hashes的HyperLogLog中。如果sadd命令返回1表示添加成功则说明这是一个新的URL我们使用Scrapy的Request对象加入爬取队列否则我们将其标记为已经爬取过的重复URL。 在parse方法中我们处理返回的网页数据。 需要确保已经正确安装和配置了Redis并确保Redis服务器正在运行。你可以根据实际情况修改Redis的连接参数例如设置密码、指定IP地址等。 ----------案例,请勿当真,只是演示!!! 总结 通过HyperLogLog我们可以高效地估计一个大型数据集中不重复元素的数量比如统计每天访问论坛的独立用户数量。它通过占用固定的内存空间提供高度的近似精度使得计数操作更加高效和可扩展。
http://www.hkea.cn/news/14336801/

相关文章:

  • 云南网站建设百度建设银行大连市分行网站
  • 温州建设工程网站网络推广方案策划
  • 在那儿能找网站建设网站开发课题开发背景
  • 万维网网站续费wordpress安装主题后无法查看媒体
  • 公司内网站建设做商城网站需要什么条件
  • 网站下载系统如何做系统廊坊seo排名外包
  • 织梦手机网站免费模板杭州建设工程协会
  • 我做网站学软件开发需要什么基础
  • 徐州网站建设外包多梦wordpress
  • php+ajax网站开发典型实例 pdf论坛申请网站备案前置审批
  • 全球做的比较好的网站有什么做树状图的网站
  • 电商型网站wordpress评论框修改
  • 婚恋网站哪家做的最好湘潭专业seo优化价格
  • 需要找做网站的平面设计网格
  • 唐山市网站建设wordpress滑动显示分类文章
  • 友联建设集团官方网站兰州seo快速优化报价
  • 网站在线优化工具工程公司名称大全大气好听
  • 永川做网站的抖音关键词排名
  • 成都专业网站推广公司萍乡网站制作公司
  • 搭建一个自己的网站WordPress写小说插件
  • 哈尔滨app网站开发广州越秀番禺最新通告
  • 我需要网站中卫网红美食打卡地
  • 成都网站制作哪家好网站建设案例 优帮云
  • 专门做护理PDCA的网站最新个人注册公司流程
  • 有哪些做西点及烘焙的网站网站皮肤是怎么做的
  • 网站后来功能重庆万州网站建设报价
  • 做网站和自媒体哪个好公众号wordpress
  • 做网站 excel网站建设最好的公司排名
  • 对门户网站建设情况的报告黄村网站建设公司
  • 建设公司门户网站南宁网站定制团队