当前位置: 首页 > news >正文

html网页设计网站网站建设优化方法

html网页设计网站,网站建设优化方法,网页源码提取工具,局域网即时通讯软件排名目录 概述动态调整Join策略原理实战 动态优化倾斜的 Join原理实战 概述 broadcast hash join 类似于 Spark 共享变量中的广播变量#xff0c;Spark join 如果能采取这种策略#xff0c;那join 的性能是最好的 自适应查询AQE(Adaptive Query Execution) 动态调整Join策略 原… 目录 概述动态调整Join策略原理实战 动态优化倾斜的 Join原理实战 概述 broadcast hash join 类似于 Spark 共享变量中的广播变量Spark join 如果能采取这种策略那join 的性能是最好的 自适应查询AQE(Adaptive Query Execution) 动态调整Join策略 原理实战 动态优化倾斜的 Join 原理默认环境配置修改配置 动态调整Join策略 实际上在生产中特别是工厂中的局限性表设计的时候不是那么合理导致这这种情况很少见很难被调整。 原理 AQE 可以将 sort-merge join 转成 broadcast hash join 条件是当join 表小于自适应 broadcast hash join 的阀值。 开启了自适应查询执行机制之后可以在运行时根据最精确的数据指标重新规划join策略实现动态调整join策略。 看以下图 后续测试过程中可以看 spark sql 的执行图。 属性名称默认值解释版本spark.sql.adaptive.localShuffleReader.enabledtrue当值为true且spark.sql.adaptive.enabled也为true时Spark尝试不需要shuffle分区时使用本地的shuffle读取器读取shuffle数据例如在将 sort-merge 转换成 broadcast-hash join 之后3.0.0spark.sql.adaptive.autoBroadcastJoinThreshold(none)为表配置最大的字节数能优化成 broadcast join通过设置此配置为-1可以禁用 broadcast 默认值与 spark.sql.autoBroadcastJoinThreshold 相同3.2.0spark.sql.autoBroadcastJoinThreshold10MB同上1.1.0 当所有的 shuffle partitions 都小于阀值 AQE 将 sort-merge join 转成 shuffled hash join 最大阀值配置spark.sql.adaptive.maxShuffledHashJoinLocalMapThreshold 属性名称默认值解释版本spark.sql.adaptive.maxShuffledHashJoinLocalMapThreshold0为每个分区配置最大的字节数能够构建 local hash map,如果这个值不小于 spark.sql.adaptive.maxShuffledHashJoinLocalMapThreshold并所有的分区不大于这个配置join选择更倾向于使用 shuffled hash join而不是 sort merge join3.2.0 实战 执行的 sql select count(*) from xx where dt 2023-06-30 and workorder011002118525 ; ## 同样的表相连 select * from (select * from xx where dt 2023-06-30 and workorder011002118525) as a left join xx as b on b.dt 2023-06-30 and b.workorder011002118525 and a.id b.id ;由上图三百多万的数据肯定超过10MB了所以是 sort merge join 修改 sql 如下 select * from (select id from xx where dt 2023-06-30 and workorder011002118525 ) as a join xx as b on a.id b.id and b.dt 2023-06-30 and b.unitid H8TGWJ035ZY0000431;动态优化倾斜的 Join 原理 数据倾斜严重将严重影响 join 查询的性能。该功能动态处理在 sort-merge join 倾斜数据时将其分为大小差不多的任务。当同是启用 spark.sql.adaptive.enabled 和 spark.sql.adaptive.skewJoin.enabled 时动态优化倾斜 这个功能将生效。 属性名称默认值解释版本spark.sql.adaptive.skewJoin.enabledtrue当同是启用 spark.sql.adaptive.enabled动态优化倾斜 这个功能将生效3.0.0spark.sql.adaptive.skewJoin.skewedPartitionFactor5如果分区的大小大于此因子乘以分区大小的中值并且也大于spark.sql.adaptive.skewJoin.strakedPartitionThresholdInBytes则该分区被视为偏斜。3.2.0spark.sql.adaptive.skewJoin.skewedPartitionThresholdInBytes256MB如果分区的字节大小大于此阈值并且也大于spark.sql.adaptive.skewJoin.strakedPartitionFactor乘以分区大小中值则该分区被视为偏斜。理想情况下此配置应设置为大于spark.sql.adaptive.advisoryPartitionSizeInBytes。3.0.0 假设有两个表 t1和t2其中表t1中的P0分区里面的数据量明显大于其他分区默认的执行情况是这样的看这个图 t1表中p0分区的数据比p1\p2\p3这几个分区的数据大很多可以认为t1表中的数据出现了倾斜。 当t1和t2表中p1、p2、p3这几个分区在join的时候基本上是不会出现数据倾斜的因为这些分区的数据相对适中。但是P0分区在进行join的时候就会出现数据倾斜了这样会导致 join 的时间过长。 动态优化倾斜的 join 机制会把P0分区切分成两个子分区P0-1和P0-2并将每个子分区关联到表t2的对应分区P0看这个图 t2表中的P0分区会复制出来两份相同的数据和t1表中切分出来的P0分区的数据进行 join 关联。 这样相当于就把t1表中倾斜的分区拆分打散了最终在 join 的时候就不会产生数据倾斜了。 实战 todo: 以后如果遇到再补充上
http://www.hkea.cn/news/14405650/

相关文章:

  • 阿里云需要网站建设方案书网站点内页还是首页
  • 建设免费网站登录网址抚州的电子商务网站建设公司
  • ps网站导航怎么做韩国今天新闻
  • 上海校园兼职网站建设网站布局优化
  • 徐州企业网站制作上海公司做网站的
  • 怎么建单位的网站雷锋书签制作图片
  • 网站开发技术的现状网站建设的企业
  • 做网站膜网站怎么做网站论坛源码
  • 上海装修网站建设乐清网站建设推广
  • 张掖网站建设培训建网站多少钱一平方
  • 免费网站建设解决方案网站建设工作建议
  • 做网站是不是需要服务器互联网营销与管理
  • 唐山房产网站建设考试培训
  • 国内精美网站界面网址惠州品牌网站建设价格
  • 网站建设要规避的分类目录采用的是
  • 西双网站建设百讯网站建设
  • php做网站用什么开发工具网站logo名词解释
  • 预订网站模板品牌建设的五个要素
  • 教育平台oss做视频网站重庆建筑人员证书查询
  • 网站如何做网页查询广州市手机网站建设公司
  • 网易网站开发淘宝客手机网站搭建
  • 有域名和主机怎么做网站网页qq音乐在线听
  • 网站开发开题报告范文邵阳市 网站建设
  • 按钮特效网站空包网站建设属于哪类
  • 建设建网站中国机械外协加工网
  • 上海网站设计合理柚v米科技博罗网站建设哪家便宜
  • 林州网站建设哪家便宜牡丹江营商环境建设监督局网站
  • 一个公司可以做几个网站东莞网络营销推广专业
  • 网站制作论文题目ai绘画软件免费
  • 上海小学网站建设招标网页游戏传奇合击版