当前位置: 首页 > news >正文

做一个网站花2万贵吗手机网站的推广

做一个网站花2万贵吗,手机网站的推广,wordpress购物模板下载,济南建站公司注意什么文章目录 预备 数据和执行语句Expand第一次HashAggregateShuffle and Second HashAggregate最后结果性能原文 预备 数据和执行语句 SELECT COUNT(*), SUM(items), COUNT(DISTINCT product), COUNT(DISTINCT category) FROM orders;假设源数据分布在两个1核的结点上#xff0… 文章目录 预备 数据和执行语句Expand第一次HashAggregateShuffle and Second HashAggregate最后结果性能原文 预备 数据和执行语句 SELECT COUNT(*), SUM(items), COUNT(DISTINCT product), COUNT(DISTINCT category) FROM orders;假设源数据分布在两个1核的结点上数据就8行 Expand spark把count distinct操作转换成count操作。 第一步是对每个要count distinct的列生成新的行这里是product和category列当然原来不需要distinct聚合的列也在。 原来items列不需要distinctproduct和category列要distinct所以数据膨胀了2倍。原来8条数据现在是8*(12)24条 spark加了gid这一列值为0代表所有非distinct聚合这里是count(*)和sum(items)值为1和2分别代表其他distinct聚合这里1代表product2代表category。 NULL是怎么赋值的对输入列来说每行只有1个非空值。在spark的物理执行计划中可以看到操作是这样的 ExpandInput: [product, category, items]Arguments: [[null, null, 0, items],[product, null, 1, null],[null, category, 2, null]]第一次HashAggregate Spark使用所有count distinct的列和gid作为关键字product、category和gid对行进行局部散列并对非distinct的聚合count*和SUMitems执行局部局部聚合 相当于执行了select product,category,gid,count(*) cnt,sum(items) items from 膨胀后的表 group by product,category,gid 这可以使得膨胀后的数据变小。 如果不同值的数量比较少减少的数据是相当可观的最终结果可能比原始数据还要少。 可以看到原来每个结点上有4行膨胀后是12行局部聚合后变成了6行。 Shuffle and Second HashAggregate 在每个结点内部HashAggregate后经过shuffle后变成这样 重新再每个结点做局部shuffle得到 相当于执行了select product,category,gid,count(*) cnt,sum(items) items from 膨胀后的表 group by product,category,gid 这一步使得所有键都变成了唯一的。 最后结果 现在所有行可以合并成一个partition再次HashAggregation但这次不用group by product, category和gid 现在再也没有重复值了简单的count和根据gid筛选就可以得到想要的count distinct结果 cnt FILTER (WHERE gid 0),sum FILTER (WHERE gid 0),COUNT(product) FILTER (WHERE gid 1),COUNT(category) FILTER (WHERE gid 2) Result: COUNT(*): 8SUM(items): 120COUNT(DISTINCT product): 4COUNT(DISTINCT category): 2性能 如果不同值的数量比较少那么即使膨胀后最后要shuffle的行也很少这样因为spark局部聚合的原因count distinct是相对比较快的如果不同值的数量很多并且你在一个语句中使用多个count distinct对不同的列。那么要shuffle行因为膨胀会很多局部聚合也不能有效遏制数据的膨胀那么要让查询语句成功执行需要消耗更多的executor内存。 原文 Distributed COUNT DISTINCT – How it Works in Spark, Multiple COUNT DISTINCT, Transform to COUNT with Expand, Exploded Shuffle, Partial Aggregations – Large-Scale Data Engineering in Cloud (cloudsqale.com)
http://www.hkea.cn/news/14343248/

相关文章:

  • 楼宇网站建设家政月嫂网站源码
  • 新片场视频素材自己网站做优化的有权利卖么
  • 网站建设中页面源码杭州百度推广开户
  • 免费搭建手机自助网站网站开发工程师公司
  • 湛江网站公司怎么请人做网站
  • 新东方研学网站那家公司做的免费注册个人个人网站
  • 建设工程质量 协会网站十大电子元器件采购商城
  • 河海大学土木专业类建设网站外贸网站收到询盘
  • 互联网软件门户网站小企业网站建设口碑
  • 上海青浦做网站广州企业注册一网通
  • html5 开发的网站wordpress支持代码高亮
  • 关于节约化建设网站的表态发言ui交互设计是什么意思
  • 网站开发与app开发原理淄博云网信息技术有限公司
  • wordpress 站点转移企业qq出售平台
  • 那些网站是php做的app软件下载网站免费进入
  • 网站制作经典案例wordpress无法登陆
  • 专业做企业网站什么是建设网站工具
  • 怎样给网站做优化网站类网站开发犯罪吗
  • 网站主体备案wordpress制作网页教程
  • 响应式网站开发现状网络规划设计师教程第2版2021版pdf
  • 网站开发从什么学起甘肃省集约化网站建设试点
  • 石家庄网站建设找汉狮佛山应用软件开发
  • 数据过滤网站模板下载最新体育新闻足球
  • 在线做qq空间的网站网站群建设
  • 做网站如何找项目政务门户网站建设思想
  • 南宁cms建站网站开发的技术简介
  • 电子商务是建网站遵义网站建设90kj
  • 网站 谁建设 谁负责商会 网站模板
  • 网页视频提取软件seo外包多少钱
  • 网站前台设计模板大学生网页设计作业成品