当前位置: 首页 > news >正文

大型网站开发协调公司宣传网页怎么做

大型网站开发协调,公司宣传网页怎么做,旅游网站设计完整代码,东莞网站优化关键词公司RDD概述 中文名为弹性分布式数据集,是数据处理基本单位。代表一个弹性的,不可变,可分区,里面的数据可并行计算的集合。 RDD和Hadoop MR 的区别: RDD是先明确数据处理流程,数据在行动算子执行前实际上并未…

RDD概述

中文名为弹性分布式数据集,是数据处理基本单位。代表一个弹性的,不可变,可分区,里面的数据可并行计算的集合。

RDD和Hadoop MR 的区别:

  1. RDD是先明确数据处理流程,数据在行动算子执行前实际上并未被修改
  2. MR本质上是摸石头过河,每一步操作时,数据本体已经被修改了,无法恢复。

RDD特性:

  • 一组分区:标记数据是哪个分区的
  • 一个计算每个分区的函数
  • RDD之间的依赖关系
  • 一个分区器:即RDD的分片函数
  • 一个优先列表:移动数据不如移动计算

Spark编程

RDD的创建

  1. 使用IDEA创建一个spark项目
  2. 添加spark-core_2.12依赖,版本3.3.1
  3. 在setting-plugins搜索Scala插件,方便查询Scala代码
  4. 如果代码出现winutils找不到异常时,需要配置一下windows对于Hadoop的依赖
  5. 开始编程
    • 创建RDD_init的class文件,定义main方法
    • new JavaSparkContext(), 设置SparkConf().setMaster("local[*]").setAppName("rdd");得到sc
    • sc获取RDD的方法
      • textFile(文件路径)
      • parallelize(list集合)

分区

为了能够看到分区的情况,不使用collect收集,而是采用saveAsTextFile方法来看并行操作的具体情形。local[2]代表并行度,也会影响文件的数量,这个是分区数的上限。也可以通过parallelize(list, 分区数)方法来控制分区数量,而不影响分区的上限。

内存数据分区策略:如果数据个数无法被分区数整除,多出来的数据优先分配给后面的分区。

def positions()={val start = ((下标*数据个数)/分区数).toIntval end = ((下标+1)* 数据个数/ 分区数).toInt
}

从集合获取数据时,负载均衡,尽量保证每个分区的数据数量是一致的,后面的分区的数据会比前面的多。

MR和spark的切分区别:

  • MR希望每个任务跑到数据量级尽量多,因为MR底层是单线程多进程的,并发没有那么方便。
  • spark希望跑到任务尽量多,即负载均衡,并发量高,因为spark底层是多进程多线程的。

文件数据分区策略:分区数量最低为2,最高为环境CPU数量。分区数量根据文件大小来计算得出,跟MR切片规则很类似。大致是这样:

  • goalS ize = 文件大小(字节) / 分区数量,最小为1
  • 分区数量 = 文件大小 / goalSize
http://www.hkea.cn/news/628458/

相关文章:

  • 璧山集团网站建设互联网推广营销
  • 平面设计网址推荐全国seo搜索排名优化公司
  • 青岛公路建设集团网站东莞排名优化团队
  • 北京公司响应式网站建设价位太原网站建设开发
  • 龙岩网络诈骗通缉人员优化推广方案
  • 专做海外代购的网站设计案例网
  • 漳州网站设计东莞网站制作模板
  • 制作应用的软件成都排名seo公司
  • 北京专业企业网站建设俄罗斯搜索引擎入口 yandex
  • wordpress 怎么改中文网站推广优化价格
  • 南山做网站公司怎么选择企业seo优化服务
  • 什么 电子商务网站建设与管百度招商加盟
  • 南召微网站开发手机优化大师官方版
  • 营销型网站技术特点网站推广网
  • 龙游县住房和城乡建设局网站百度seo优化方法
  • 深圳方维网站建设设计个人网站
  • wordpress 流量站百度应用
  • ps素材网seo在线工具
  • 岳阳网站开发公司html网站模板免费
  • 怎样用模板做网站优化网站技术
  • 全国新型疫情最新情况长沙网站搭建优化
  • 郑州网站建设规划seo建站教程
  • 购物网站 购物车界面如何做百度搜索网
  • 推广网站的图片怎么做外贸平台
  • 新手如何给自己的网站做优化bt种子磁力搜索
  • 成都学校网站制作遵义网站seo
  • d?t网站模版宁波seo在线优化哪家好
  • c做的网站淄博做网站的公司
  • 网站开发制作公司郑州网站建设外包
  • 注册域名用个人还是公司好长沙seo优化排名