网站扩容需要多少钱,济南网站建设联 系小七,wordpress 赞助插件,吸引人的营销标题1. 流式数据倾斜
流式处理的数据倾斜和 Spark 的离线或者微批处理都是某一个 SubTask 数据过多这种数据不均匀导致的#xff0c;但是因为流式处理的特性其中又有些许不同 2. 如何解决
2.1 窗口有界流倾斜 窗口操作类似Spark的微批处理#xff0c;直接两阶段聚合的方式来解决… 1. 流式数据倾斜
流式处理的数据倾斜和 Spark 的离线或者微批处理都是某一个 SubTask 数据过多这种数据不均匀导致的但是因为流式处理的特性其中又有些许不同 2. 如何解决
2.1 窗口有界流倾斜 窗口操作类似Spark的微批处理直接两阶段聚合的方式来解决就可以
select date,type,sum(pv) as pv
from(selectdate,type,sum(count) as pvfrom tablegroup bydate,type,floor(rand()*100) --随机打散成100份 )group by date,type;
2.2 数据本身不均匀
KeyBy 前数据已经不均匀了可能是Topic 每个分区的数据不一致较为少见或者上游task处理以后导致的数据不均匀导致下游operate chains的某个task压力很大
这种可以加一个随机数 redistributiing 一下之类打散
2.3 keyby类
加盐
开启minibatch 和 global牺牲时效性减少输出数据量