寻找网站设计与制作,福建省住房与城乡建设部网站,重庆免费建网站,wordpress除了首页都是404背景
传统数仓一般都是HiveSparkSql作为代表#xff0c;不过也包括Kylin等#xff0c;而clickhouse是实时OLAP的代表#xff0c;我们简单看下他们的对比
传统数仓和clickhouse对比
HiveSparkSQL的传统数仓#xff1a; 1.数据更新速度慢#xff0c;由于传统数仓一般都是…背景
传统数仓一般都是HiveSparkSql作为代表不过也包括Kylin等而clickhouse是实时OLAP的代表我们简单看下他们的对比
传统数仓和clickhouse对比
HiveSparkSQL的传统数仓 1.数据更新速度慢由于传统数仓一般都是基于HDFS构建的数据更新也就意味着把数据写入HDFS文件中由于大部分表数据的结构化做的比较差比如都是基于String表示所以写入性能很差意味着数据更新速度非常慢 2.数据查询速度基于SparkSql进行数据查询虽然可以利用spark基于内存的特点提高查询速度但是总体上说这个查询速度还是太慢不能支持实时查询的要求为了支持实时查询的需求一般会引入Kylin也就是提前预计算但是提前预计算的问题在于维度爆炸导致的数据膨胀问题而这些数据会导致存储的大量占用或者浪费。
基于clickhouse的实时分析
1.数据更新速度中等在ck中我们可以通过批量插入数据的方式来达到比较好的数据插入速度当然比起OLTP来说更新速度还是不足但是通过分批的方式达到每秒几万的数据插入速度还是可以做到的。 2.数据查询速度很快这是ck最擅长的地方可以在秒级别计算出各种维度的数据聚合的分析结果而不需要进行预计算自然也不需要浪费存储