当前位置: 首页 > news >正文

做的好微信商城网站重庆旅游攻略必去景点推荐

做的好微信商城网站,重庆旅游攻略必去景点推荐,深圳市建筑有限公司,国内网站在国外访问很慢文章目录 一、前言二、Delta Lake三、Apache Hudi四、Apache Iceberg五、Apache Paimon六、对比七、笔者观点八、总结九、参考资料 一、前言 在上一篇从数据仓库到数据湖(上)#xff1a;数据湖导论文章中#xff0c;我们简单讲述了数据湖的起源、使用原因及其本质。本篇文章… 文章目录 一、前言二、Delta Lake三、Apache Hudi四、Apache Iceberg五、Apache Paimon六、对比七、笔者观点八、总结九、参考资料 一、前言 在上一篇从数据仓库到数据湖(上)数据湖导论文章中我们简单讲述了数据湖的起源、使用原因及其本质。本篇文章将着重介绍市面上热门的数据湖开源框架并分享笔者对当前数据湖技术的理解和看法。 截至目前在数据湖领域Delta Lake、Apache Iceberg 和 Apache Hudi 无疑是三大热门开源框架。此外Apache Paimon 最初是 Flink 的子项目后来独立发展成为一个独立的框架可以说是后起之秀。 二、Delta Lake 由于 Apache Spark 在商业化上取得巨大成功由其背后的商业公司 Databricks 推出的 Delta Lake 也显得格外亮眼。Delta Lake 是一个流批一体的数据湖存储层支持更新、删除和合并操作。 主要特点 由于出自 DatabricksDelta Lake 与 Spark 的所有数据写入方式完全兼容包括基于 DataFrame 的批处理、流处理以及 SQL 的 Insert、Insert Overwrite 等操作开源版本暂不支持 SQL 写入EMR 已做支持。在数据写入方面Delta Lake 与 Spark 强绑定在查询方面开源 Delta Lake 目前支持 Spark 和 Presto但处理 delta log 需要使用 Spark。 核心能力 三、Apache Hudi Apache Hudi 是 Uber 公司开源的数据湖架构用于管理存储在 HDFS 上的数据。其设计目标如其名所示即 Hadoop Upserts Deletes and Incrementals。Hudi 提供了“COW vs MOR”两种数据模型以适应不同的业务需求。此外Hudi 还提供了丰富的插件生态可以方便地与其他大数据组件集成。 核心能力 四、Apache Iceberg Apache Iceberg 是一种用于跟踪超大规模表的新格式专门为对象存储如 S3而设计。尽管社区关注度暂时不如 Delta Lake功能也不如 Hudi 丰富但 Iceberg 是一个野心勃勃的项目具有高度抽象和优雅的设计为成为一个通用的数据湖方案奠定了良好基础。 Iceberg 为大数据带来了 SQL 表的可靠性和简单性同时让 Spark、Trino、Flink、Presto 和 Hive 等引擎能够同时安全地使用相同的表。 五、Apache Paimon Apache Paimon 是一种湖泊格式可以使用 Flink 和 Spark 构建实时湖屋架构用于流和批处理操作。Paimon 创新地结合了湖泊格式和 LSM日志结构合并树结构将实时流更新引入湖泊架构。 核心能力 实时更新 主键表支持大规模更新具有高性能通常通过 Flink 流实现。支持定义合并引擎灵活更新记录。可重复保存最后一行部分更新或聚合记录。支持定义变更日志生成器在合并引擎的更新中产生正确和完整的变更日志简化流分析。 大规模数据处理 附加表无主键提供大规模批处理和流处理能力并自动进行小文件合并。支持通过 z 顺序排序进行数据压缩以优化文件布局并使用 minmax 等索引提供快速查询。 数据湖功能 可伸缩元数据支持存储 Petabyte 级别的大数据集和大量分区。支持 ACID 事务、时间旅行和模式演化。 六、对比 Delta、Iceberg、Hudi 和 Hive 四者的差异可以用建房子的比喻来说明。由于开源的 Delta 是 Databricks 闭源 Delta 的简化版本主要提供 table format 的技术标准而闭源版本的 Delta 基于这个标准实现了诸多优化因此我们主要用闭源的 Delta 来做对比。 Delta 的房子基础相对结实功能楼层也建得比较高但这个房子可以说是 Databricks 的本质上是为了更好地壮大 Spark 生态。在 Delta 上其他计算引擎难以替代 Spark 的位置尤其是在写入路径方面。Iceberg 的建筑基础非常扎实扩展到新的计算引擎或文件系统都很方便但目前功能楼层相对低一点最缺的功能是 upsert 和 compaction。Iceberg 社区正在优先推动这两个功能的实现。Hudi 的情况不同它的建筑基础设计不如 Iceberg 结实。例如要接入 Flink 作为 Sink需要从底向上重新设计房子把接口抽象出来并且考虑不影响其他功能。尽管如此Hudi 的功能楼层还是比较完善的提供的 upsert 和 compaction 功能直接命中用户的痛点。Hive 看起来像是一栋豪宅绝大部分功能都有但作为数据湖有点像靠着豪宅的一堵墙建房子显得相对笨重。此外正如 Netflix 的分析细看这栋豪宅的墙面其实有一些问题。 七、笔者观点 虽然上述四款热门开源框架都宣称自己是数据湖解决方案但根据我的了解和使用体验这几款产品均不能完全满足数据湖所应具备的能力。 在前一篇文章中笔者提到数据湖的本质是由数据存储架构和数据处理工具组成的解决方案。然而这四款开源框架均沿用了传统数据库建表的思想对数据有较强的 schema 约束这与数据湖原始定义中的集成各类非结构化数据的要求相悖。 通过对这几款产品的使用和体验我认为目前热门的数据湖技术均依赖于分布式文件系统的存储能力。它们的功能介于分布式文件系统与普通数据库之间继承了文件系统中数据文件和目录对用户直观可见以及数据库对数据使用表结构的管理、元数据管理和事务管理的优点可以被称为一种数据管理中间件的开源产品。 这些产品的使用并不需要安装部署任何软件也不需要启动额外的服务和端口只需增加一个 jar 包以插件的形式嵌入到计算引擎中从而实现对分布式文件系统中数据的读写和各种数据管理功能。它们为计算引擎提供了一种数据组织和管理方式但并非真正意义上的数据湖。 真正意义上的数据湖应该具备数据抽取 (ETL)、元数据管理、数据分析三大功能如下图所示 八、总结 数据湖就像其他新兴技术一样在刚出现时往往受到广泛关注成为热门话题。然而很多新兴技术词汇大多是作为一个泛化的理论概念但往往具有很大的吸引力其实际应用还存在诸多挑战和局限性。 根据对当前几款热门开源框架如Delta Lake、Apache Iceberg、Apache Hudi、Hive-ACID的使用体验这些产品均无法完全满足数据湖应具备的能力。数据湖的本质是由数据存储架构和数据处理工具组成的解决方案但上述框架在设计上仍然沿用了传统数据库的schema约束与数据湖集成各类非结构化数据的初衷相悖。 总体来说数据湖等新兴技术在理论上提供了一个理想的解决方案但在实际应用中仍需不断发展和完善以满足企业对数据存储、管理和分析的需求。这一过程需要时间和技术的积累才能真正实现理论与实践的统一。 九、参考资料 从数据库到数据仓库数据仓库导论从数据仓库到数据湖(上)数据湖导论深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案HidiDelta LakeIcebergPaimon
http://www.hkea.cn/news/14402812/

相关文章:

  • 专做实习生招聘的网站做网站的基本知识
  • 做网站软文怎么弄百度怎么优化关键词排名
  • 广州网站建设企业久久建筑网高空坠落专项应急预案
  • 12数据网站建设做外文网站
  • 河南网站建设网站建设的客户
  • 网站开发代理商成都建设网站公司简介
  • 云主机多个网站wordpress 首字母标签页
  • 智慧团建登录官网惠州百度关键词优化
  • 360建站官网wordpress静态化链接
  • 网站选择城市怎么做商品定制首页
  • 余杭住房和城乡建设局网站唯品会是哪做的网站
  • 公司网站做的太难看比较有设计感的网站
  • windows 2012做网站伪静态秦皇岛建网站多少钱
  • 中国建设银行吉林省分行官网站企业搭建什么样的平台
  • 番禺做网站报价ajax wordpress地址
  • 视频网站高管有做传统媒体出身的吗?优酷副总裁转型成功的概率有多少?中国建设银行官网站纪念币预约
  • 网站建设怎么进后台电子商务网站开发主要有哪些
  • 做兼职调查哪个网站好广州购物网站建设
  • 做网站的需要什么要求模板建站总公司
  • 电子商务网站开发的总结wordpress 搜索页
  • 网站改版页面不收录在试用网站做推广
  • vue做网站导航中国互联网金融公司排名
  • 浙江建站google推广 的效果
  • aspnet网站开发实例教程课件微信答题小程序
  • 东莞做商城网站建设哪家好陕西省住建厅官网
  • 蓟州区建设银行官方网站网站备案黑名单
  • 成都网站代运营h5制作平台教程
  • 如何快速创建网站淘宝网站建设流程
  • 官方网站是什么意思牡丹江商城网站建设
  • linux空间做网站青岛 php 网站建设