提高网站seo,wordpress怎么弄背景,微信公众号推文怎么做,免费直播软件下载一、目的
在用Flume采集Kafka中的数据写入HDFS后#xff0c;发现写入HDFS的不是每天一个文件#xff0c;而是一个文件夹#xff0c;里面有很多小文件#xff0c;浪费namenode的宝贵资源 二、Flume的配置文件优化#xff08;参考了其他博文#xff09;
#xff08;一发现写入HDFS的不是每天一个文件而是一个文件夹里面有很多小文件浪费namenode的宝贵资源 二、Flume的配置文件优化参考了其他博文
一方法一、大多数人推荐经过测试有效的方法
在Flume任务的配置文件设置
a1.sinks.k1.hdfs.rollSize 0 a1.sinks.k1.hdfs.rollCount 0 而不是
a1.sinks.k1.hdfs.roundtrue
a1.sinks.k1.hdfs.roundValue10
a1.sinks.k1.hdfs.roundUnitminute
将rollSize和rollCount设置为0表示不根据临时文件大小和event数量来滚动文件滚动文件即指将HDFS上生成的以.tmp结尾的临时文件转换为实际存储文件
还有说可以调大rollSize的参数比如调至102400,表示100KB。滚动文件的单位是byte。
二方法二、有人推荐经过测试后似乎有效的方法
还是在Flume任务的配置文件设置
a1.sinks.k1.hdfs.minBlockReplicas1
我测试过本来每5分钟就会有104.54 KB和1.63 KB的两个文件因为有两个数据源。 在配置文件里加入这个a1.sinks.k1.hdfs.minBlockReplicas1后那个小文件1.63 KB就消失了。
所以这个方法还是有效的但是对我来说就有点问题就把它给去掉了还是用方法一 Flume虽然安装简单但是使用起来却非常不简单使用过程中需要优化的配置服务很多需要进一步研究总结