网站开发网页超链接路径,室内设计公司排名及案例,免费的舆情网站入口在哪,天河网站+建设信科网络什么是ClickHouse#xff1f; 关于发展历史存在的优势与劣势什么是它风靡的原因#xff1f;
什么是ClickHouse#xff1f; 官方给出的回答是#xff0c;它是一个高性能、列式存储、基于SQL、供在线分析处理的数据库管理系统 当然这边不得不提到OLAP(Online Analytical Pr…什么是ClickHouse 关于发展历史存在的优势与劣势什么是它风靡的原因
什么是ClickHouse 官方给出的回答是它是一个高性能、列式存储、基于SQL、供在线分析处理的数据库管理系统 当然这边不得不提到OLAP(Online Analytical Processing)概念的出现
随着大数据的风吹起传统数据库在险中求生新生的大数据分析引擎如雨后春笋般出现。
为了更好地利用数据发挥数据的价值让静默的数据会说话就需要分析引擎具备能够快速读取、分析、产出统计结果的能力那么大数据量、快速实时查询此外还需要尽可能低成本使用成为市场需求。
与ClickHouse类似的市场产品有
Apache Cassandra特别是配合CQL查询时用于大规模分布式环境Apache Kylin针对大数据OLAP分析而设计与Hadoop生态集成紧密IBM Db2 BLU支持列式存储和内存计算适用于数据仓库场景Actian Vector高性能列式数据库专为快速数据分析打造Kyligence基于Apache Kylin构建的企业级智能数据平台Apache Pinot实时 OLAP 数据库面向低延迟和高并发场景Druid专为实时事件流处理和快速聚合查询设计的列式数据库VerticaHP开发的列式MPP数据库后被Micro Focus收购Presto开源的分布式SQL查询引擎适合交互式分析查询Cloudera Impala在Hadoop之上提供快速SQL查询功能Oracle ExadataOracle优化的数据库机器特别针对数据仓库场景Microsoft SQL Server Analysis Services (SSAS) 或 Azure Synapse AnalyticsTeradata专长于大规模数据仓库解决方案Greenplum Database开源MPP数据仓库系统
那么ClickHouse有哪些历史在市场竞争力上又有哪些优劣势呢
关于发展历史
ClickHouse是由俄罗斯搜索引擎巨头Yandex内部开发的数据存储和分析系统。
该项目始于2008年其初始设计目标是为了支持Yandex Metrica产品这是一个Web流量分析服务需要处理海量数据并实现快速的在线分析查询OLAP。随着技术的发展和完善ClickHouse逐渐成为一个独立且功能强大的列式数据库管理系统。
在2016年6月15日Yandex正式将ClickHouse作为开源项目对外发布
截至2024年ClickHouse持续保持快速迭代定期发布新版本它已成为OLAP领域的重要参与者之一与Apache Druid、Vertica、Greenplum以及其他现代数据仓库解决方案共同竞争市场并在许多实际应用案例中展现出卓越的性价比和稳定性。
存在的优势与劣势
正如官网简单介绍的突出几点
优势1高性能查询处理
特别适合大数据分析场景下的实时或近实时 OLAP 查询。它通过列式存储、向量化执行引擎和高度优化的数据压缩算法能够快速处理大规模数据集。
优势2列式存储与高效压缩
数据按列存储使得在进行聚合计算时仅需读取相关列大大减少了I/O成本并且同列数据类型相同的情况下可以实现高倍率的压缩进一步减少存储空间和提升读取速度。
优势3分布式架构
分布式无主架构支持灵活的扩缩容成为企业生产的重要考量之一。
优势4SQL兼容性
相较于传统大数据引擎对SQL的兼容性不足上ClickHouse 提供了丰富的 SQL 支持积极与SpringBoot大框架靠拢能够像查询传统数据库那样查询ClickHouse降低技术门槛更快地获得市场的认可。此外针对数据分析需求增加了许多高级特性比如窗口函数、数组和其他复杂数据类型的支持以及用于数据预处理的内置聚合函数和表引擎。
优势5开源
ClickHouse 是活跃的开源项目允许用户根据具体业务需求自由定制这绝对是中小型企业生产选型的重要考量之一。 对于它的不足也是情理之中
劣势1不支持事务
它无法做到传统数据库的事务特性它更适合那些对最终一致性容忍度较高的分析型工作负载。
劣势2DML的效率不高
正如它的自我介绍它是适用于OLAP的引擎数据分析引擎主要面向大数据读进行优化对于写入、更新、删除的DML操作生效效率都是相对偏低的不适合于大数据量实时写入的场景。
劣势3管理、监控与安全性功能不足
总体发展的时间还不长对于外围的管理、监控与安全性上面稍显不足但是相信用的人、贡献的人越多会发展地越来越完善。
什么是它风靡的原因
OLAP引擎那么多列式存储的数据库也很多到底为什么它的受众如此之多Github star 33.3K
核心的两个原因体现在了官网查询快 占用小
查询快是OLAP技术选型首要考虑的点不快怎么能做在线实时分析呢查询快取决于几点 列式存储ClickHouse采用了列式存储格式相比于传统的行式存储列式存储在进行大数据分析时具有显著优势。当查询仅涉及部分列时只需要读取相关的列数据大大减少了磁盘I/O和内存带宽消耗 向量化执行引擎ClickHouse使用向量化执行模型在处理查询时一次性操作一整批数据更充分地利用CPU缓存提高计算效率。 高度优化的算法与代码库由C编写代码经过深度优化以追求极致性能包括但不限于高效的压缩算法、索引结构以及函数库等。 稀疏索引与并发处理能力支持稀疏索引采用MPP架构 SQL解析查询优化预聚合表和物化视图
占用小则是另一个重要的点。对于传统的存储冷数据尝尝放起来备份不被使用占用很多存储介质一旦要用就还需要经历痛苦的恢复这也是历史数据用不起来数据分析受限的点。相比市面其他的分析引擎它可以在有限的存储内放下更多的数据数据分析范围扩大分析结果的准确性和全面性一定会有所提升那就在有限空间带来更大的价值。占用小则取决于
依旧是列式存储不仅结合查询的特点做到了查询效率的提升还更有效地利用了数据块的存储数据在物理上是连续存放的同类型数据具有更好的局部性规律更适合进行高效的压缩高效的压缩算法支持多种压缩算法如LZ4、ZSTD等排序和字典编码优化利用排序和字典编码技术进一步压缩数据量数据块压缩每个数据块独立进行压缩
关于列式和行式DB的写入性能的比对官网有详细的数据可以移步了解点这里 如果喜欢我的文章的话可以去GitHub上给一个免费的关注吗