当前位置：首页 > news >正文

做购物网站怎拼找商家百度客服24小时人工电话

news 2026/4/7 1:31:47

做购物网站怎拼找商家,百度客服24小时人工电话,网页设计与网站建设第06章在线测试,如何购买企业黄页网站1、数据倾斜表现 1.1 hadoop中的数据倾斜表现有一个多几个Reduce卡住，卡在99.99%，一直不能结束。各种container报错OOM异常的Reducer读写的数据量极大，至少远远超过其它正常的Reducer伴随着数据倾斜，会出现任务被kill等各种诡异…

1、数据倾斜表现

1.1 hadoop中的数据倾斜表现

有一个多几个Reduce卡住，卡在99.99%，一直不能结束。
各种container报错OOM
异常的Reducer读写的数据量极大，至少远远超过其它正常的Reducer
伴随着数据倾斜，会出现任务被kill等各种诡异的表现。

1.2 hive中数据倾斜

一般都发生在Sql中group by和join on上，而且和数据逻辑绑定比较深。

1.3 Spark中的数据倾斜

Spark中的数据倾斜，包括Spark Streaming和Spark Sql，表现主要有下面几种：

Executor lost，OOM，Shuffle过程出错；
Driver OOM；
单个Executor执行时间特别久，整体任务卡在某个阶段不能结束；
正常运行的任务突然失败；

2、数据倾斜产生原因

我们以Spark和Hive的使用场景为例。

在做数据运算的时候会涉及到，count distinct、group by、join on等操作，这些都会触发Shuffle动作。一旦触发Shuffle，所有相同key的值就会被拉到一个或几个Reducer节点上，容易发生单点计算问题，导致数据倾斜。

一般来说，数据倾斜原因有以下几方面：

1）key分布不均匀；

2）建表时考虑不周

举一个例子，就说数据默认值的设计吧，假设我们有两张表：

user（用户信息表）：userid，register_ip

ip（IP表）：ip，register_user_cnt

这可能是两个不同的人开发的数据表。如果我们的数据规范不太完善的话，会出现一种情况：

user表中的register_ip字段，如果获取不到这个信息，我们默认为null；

但是在ip表中，我们在统计这个值的时候，为了方便，我们把获取不到ip的用户，统一认为他们的ip为0。

两边其实都没有错的，但是一旦我们做关联了，这个任务会在做关联的阶段，也就是sql的on的阶段卡死。

3）业务数据激增

比如订单场景，我们在某一天在北京和上海两个城市多了强力的推广，结果可能是这两个城市的订单量增长了10000%，其余城市的数据量不变。

然后我们要统计不同城市的订单情况，这样，一做group操作，可能直接就数据倾斜了。

3、解决数据倾斜思路

很多数据倾斜的问题，都可以用和平台无关的方式解决，比如更好的数据预处理，异常值的过滤等。因此，解决数据倾斜的重点在于对数据设计和业务的理解，这两个搞清楚了，数据倾斜就解决了大部分了。

1）业务逻辑

我们从业务逻辑的层面上来优化数据倾斜，比如上面的两个城市做推广活动导致那两个城市数据量激增的例子，我们可以单独对这两个城市来做count，单独做时可用两次MR，第一次打散计算，第二次再最终聚合计算。完成后和其它城市做整合。

2）程序层面

比如说在Hive中，经常遇到count(distinct)操作，这样会导致最终只有一个Reduce任务。

我们可以先group by，再在外面包一层count，就可以了。比如计算按用户名去重后的总用户量：

（1）优化前

只有一个reduce，先去重再count负担比较大：

select name,count(distinct name)from user;

（2）优化后

// 设置该任务的每个job的reducer个数为3个。Hive默认-1，自动推断。

set mapred.reduce.tasks=3;

// 启动两个job，一个负责子查询(可以有多个reduce)，另一个负责count(1)：

select count(1) from (select name from user group by name) tmp;

3）调参方面

Hadoop和Spark都自带了很多的参数和机制来调节数据倾斜，合理利用它们就能解决大部分问题。

4）从业务和数据上解决数据倾斜

很多数据倾斜都是在数据的使用上造成的。我们举几个场景，并分别给出它们的解决方案。

一个原则：尽早过滤每个阶段的数据量。

数据有损的方法：找到异常数据，比如ip为0的数据，过滤掉。
数据无损的方法：对分布不均匀的数据，单独计算。
hash法：先对key做一层hash，先将数据随机打散让它的并行度变大，再汇聚。
数据预处理：就是先做一层数据质量处理，类似于数据仓库维度建模时，底层先处理数据质量。

http://www.hkea.cn/news/751628/

相关文章：

广州建设委员会官方网站凡科建站下载

全球做网站的公司排名百度一下你就知道官网

小企业网站价格免费发链接的网站

买了空间和域名怎么做网站哪家公司网站做得好

网站备案是否关闭衡阳网站建设公司

遂昌建设局网站个人怎么做网站

软件开发和网站建设网络营销的未来6个发展趋势

做网站一年多少钱免费seo网站推广

智通人才网东莞最新招聘信息官网seo是如何做优化的

个人做跨境电商网站百度地图导航手机版免费下载

阿里云注册网站之后怎么做网站百度联盟是什么

动画制作视频河南网站排名优化

网站关键词怎么做排名掌门一对一辅导官网

现在什么网站做推广比较好网页设计需要学什么

个人购物网站怎么建网络营销包括

有没有做鸭的网站工作室招聘广州网站优化工具

深圳营销外深圳网络营销公司seo和sem的联系

专业的网站制作公司哪家好竞价专员是做什么的

海南省建设厅网站百度seo霸屏软件

淄博张店做网站的公司爱站小工具圣经

wordpress w3seo优化自学

临沂手机建站模板微信seo排名优化软件

网站管理员怎么做板块建设艺人百度指数排行榜

如何创建企业网站网络舆情处置的五个步骤

做站长工具网站周口seo公司

泉州自助建站系统地推

美国做网站免费网站建设哪家好

如何做响应式布局网站seo搜索引擎优化期末及答案

电脑系统优化软件十大排名北京网优化seo公司

宁夏网站建设优化外贸网站优化推广