当前位置: 首页 > news >正文

加盟平台响应网站建设全国免费信息发布平台

加盟平台响应网站建设,全国免费信息发布平台,网站建设人员岗位职责,沈阳网站建设的公司今天我们说说Paimon主键表的一些使用上的注意事项。 一、主键表 主键表是Paimon的一种表类型。用户可以插入、更新或删除表中的记录。 说的直白点就是,允许你设置唯一主键,然后覆盖更新。 Bucket选择 无论分区表还是未分区表,Bucket都是最小的…

今天我们说说Paimon主键表的一些使用上的注意事项。

一、主键表

主键表是Paimon的一种表类型。用户可以插入、更新或删除表中的记录。

说的直白点就是,允许你设置唯一主键,然后覆盖更新。

Bucket选择

无论分区表还是未分区表,Bucket都是最小的读写单元。每个Bucket包含一个LSM树及其变更日志文件。

用户可以通过提供bucket-key选项来指定分桶列。如果未指定bucket-key,那么就根据整条记录的hash值进行数据分布(最新版本中,创建Append Queue表时必须指定bucket-key),如果指定了主键,那么会根据主键进行hash。

Bucket数量会限制处理的最大并行度。但是这个值不是越大越好,一般每个Bucket中的数据量官方推荐的值是200MB-1GB,事实上2G左右也可以,但是总之Bucket中的数量不能过多。

同时Paimon是支持扩容Bucket的,并且提供了Rescale Bucket的功能对历史数据重新分布。

跨分区更新问题

Paimon主键表本身是允许设置分区的。例如你的某一张表设置了天分区,如果你的Primary Key不包含分区键,这时候就会出现跨分区更新的问题。根据你的合并引擎不同,表现不同:

  • Deduplicate:删除旧分区中的数据,并将新数据插入到新分区中;

  • PartialUpdate & Aggregation:将新数据插入旧分区;

  • FirstRow:如果有旧值,则忽略新数据

数据量较大时,性能下降明显。

所以,强烈建议,如果你要用主键表,那么最好是不带分区,并且配合行级别过期能力进行数据失效。

核心配置就两个:

'record-level.expire-time': 要保留的时间,秒值
'record-level.time-field': 过期字段,INT类型

文件合并

压缩是一个资源密集型过程,会消耗一定的CPU时间和磁盘IO,因此过于频繁的压缩可能会导致写入速度变慢。

Paimon框架本身提供了通用的压缩策略。大多数场景,你不需要做任何事情。但是如果你的任务因为compaction导致lag,那么有两种方案可以考虑:

  1. 同步变异步

直接把这两个参数打开,数据写入不会受到文件合并的影响。

num-sorted-run.stop-trigger = 2147483647
sort-spill-threshold = 10
  1. 启动专属压缩任务

Paimon给我们提供了Dedicated Compaction压缩策略,这个策略类似Hudi中的Off-line Compaction。

什么意思呢?你可以单独启动一个任务专门进行文件的合并。

例如:

<FLINK_HOME>/bin/flink run \/path/to/paimon-flink-action-0.8.2.jar \compact \--warehouse s3:///path/to/warehouse \--database test_db \--table test_table \--partition dt=20221126,hh=08 \--partition dt=20221127,hh=09 \--table_conf sink.parallelism=10 \--catalog_conf s3.endpoint=https://****.com \--catalog_conf s3.access-key=***** \--catalog_conf s3.secret-key=*****

d66b8567de58797589b887854c537555.png300万字!全网最全大数据学习面试社区等你来!

如果这个文章对你有帮助,不要忘记 「在看」 「点赞」 「收藏」 三连啊喂!

e4ffff8a0ea8ad4df614a52a7f6ede62.png

83335edc319a2067474f3fadb6514d98.jpeg

全网首发|大数据专家级技能模型与学习指南(胜天半子篇)

互联网最坏的时代可能真的来了

我在B站读大学,大数据专业

我们在学习Flink的时候,到底在学习什么?

193篇文章暴揍Flink,这个合集你需要关注一下

Flink生产环境TOP难题与优化,阿里巴巴藏经阁YYDS

Flink CDC我吃定了耶稣也留不住他!| Flink CDC线上问题小盘点

我们在学习Spark的时候,到底在学习什么?

在所有Spark模块中,我愿称SparkSQL为最强!

硬刚Hive | 4万字基础调优面试小总结

数据治理方法论和实践小百科全书

标签体系下的用户画像建设小指南

4万字长文 | ClickHouse基础&实践&调优全视角解析

【面试&个人成长】社招和校招的经验之谈

大数据方向另一个十年开启 |《硬刚系列》第一版完结

我写过的关于成长/面试/职场进阶的文章

当我们在学习Hive的时候在学习什么?「硬刚Hive续集」

http://www.hkea.cn/news/795792/

相关文章:

  • 做王境泽表情的网站百度seo关键词优化排名
  • 怎么选择无锡网站建设虚拟主机搭建网站
  • 做原油期货关注什么网站搜索引擎优化是做什么
  • 微信小程序怎么制作游戏安卓优化清理大师
  • 胶南做网站初学者做电商怎么入手
  • 网站为什么要维护佛山网络营销推广
  • 国企网站建设报告怎么建造自己的网站
  • 免费做司考真题的网站余姚网站如何进行优化
  • 如何网站开发1688网站
  • 丽水专业网站建设价格青岛网站优化
  • 网站开发专业培训学校百度推广登录官网入口
  • 贵阳做网站公司网站热度查询
  • 做课件最好的素材网站考拉seo
  • 网站建设玖首选金手指seo网站优化收藏
  • 台州卓远做网站好不好广州seo教程
  • dz网站数据备份bt磁力猪
  • github 可以做网站吗360seo
  • 杭州 企业门户网站建设爱链
  • dj那个网站做的好长沙公司网络营销推广
  • 设计师培训招生视频黑帽seo联系方式
  • 做网上贸易哪个网站好西宁网站seo
  • 电子烟网站建设杯子软文营销300字
  • 广州企业网站制作怎么做营销推广
  • 网站建设服务器在香港郑州网站建设专业乐云seo
  • 河北建设工程交易信息网海口关键词优化报价
  • 全国网站建设公司有多少家微信朋友圈广告投放收费标准
  • 免费做网站公司黑帽seo排名技术
  • apk连接wordpress上海seo
  • 企业建网站租用服务器好还是买一个好石家庄网站关键词推广
  • wordpress文件解析外贸网站优化