当前位置: 首页 > news >正文

深圳网站建设 设计科技上海网络优化服务

深圳网站建设 设计科技,上海网络优化服务,网站建设工作室赚钱吗,手机网站自助建目录 一、事件复盘: 二、解决方案: 三、讨论 一、事件复盘: hdfs无法创建新的文件,xceivercount超过最大设置,平时每个datanode只有100个左右的连接,突然达到8000以上。 事故原因,跨多天的…

目录

一、事件复盘:

二、解决方案:

三、讨论


一、事件复盘:

hdfs无法创建新的文件,xceivercount超过最大设置,平时每个datanode只有100个左右的连接,突然达到8000以上。

事故原因,跨多天的动态分区导致: sql如下

set hive.exec.reducers.max=1000;
INSERT INTO TABLE table1 PARTITION (dt)  
selectuid,times,memo,idfa,dtfrom table2 where dt>=20230101 and dt<=20231231 distribute by rand()

使用动态分区虽然非常方便,但会带来很多小文件,像上面这个sql,动态分区是365天,reduce是1000个,如果计算比较复杂,资源充足,就会同时创建365*1000个文件。 因为是动态分区,每个reduce都要写365个文件到各自的分区中,因为数据by rand()把数据打散了。

二、解决方案:

1、降低同时正在运行的reduce数

配置如下:

mapreduce.job.running.reduce.limit=200;

这样同时运行的reduce只能到200,就是有一年的分区,也最多创建 365*200个文件。

2、如果想限制动态分区的跨天范围,也可以做如下限制

hive.exec.max.dynamic.partitions=100;

也就是动态分区只能一次创建100个,超过会报错。

3、其实动态分区不适合跨天的情况,跨天数据重跑完全可以按天一天一天的补,通过提高重跑天的次数来完成并发。

三、讨论

有人会觉得我可以增大xceivercount的数目,来避免这个问题,但是这个首先要重启datanode,另外,这个方案始终(目前已经达到了8000个连接一台机器)还是会导致大量的连接数存在,对整个集群不是很友好,还是尽量减少小文件的生成为最佳

http://www.hkea.cn/news/57/

相关文章:

  • 南京市网站seo整站优化武汉做搜索引擎推广的公司
  • 简速做网站怎么做网站免费的
  • 开发一个app需要什么seo诊断书
  • 网站如何做淘客什么叫友情链接
  • 政府网站都是谁做的推广软件赚钱
  • 网站开发概述网站权重排名
  • 企业网站建设规划的基本原则百度关键词排名价格
  • 住房和城乡建设委员会官方网站数据分析软件哪个最好用
  • 北京做网站的公司百家号关键词排名
  • 云南热搜科技做网站不给源码企业网站制作需要多少钱
  • 八爪鱼采集器WordPress接口抖音关键词排名优化
  • 三亚中国检科院生物安全中心门户网站建设app代理推广平台
  • 建设网站 宣传平台5118站长工具箱
  • 自学小程序开发seo推广思路
  • 颍上做网站seo查询系统源码
  • wordpress为用户添加积分搜索引擎优化排名技巧
  • 专门做投标书的网站提高seo排名
  • 可做百科资料参考的网站创新驱动发展战略
  • vue做直播网站发广告平台有哪些
  • 互动网站建设多少钱链爱交易平台
  • 招个网站建设维护沈阳网络关键词排名
  • 学做网站论坛vip账号找平台推广
  • 个人网站开发盈利模式网站建设哪个公司好
  • 如何在大学网站做宣传免费网页制作成品
  • 成都如何做网站软文投放平台有哪些
  • wordpress maps.gstatic.com一个网站可以优化多少关键词
  • java网站开发技术百度小说排行榜
  • 网站建设入门到精通广州网络广告推广公司
  • 探测网站是什么程序做的如何在网上推广
  • 17网站一起做网店如何下单百度网页版登录入口官网