当前位置: 首页 > news >正文

网站后续建设定制设计网站公司

网站后续建设,定制设计网站公司,未及时取消网站备案,wordpress页面模板目录文件Spark的常用算子 目录内容Spark的常用算子一、转换算子#xff08;Transformation#xff09;二、行动算子#xff08;Action#xff09;三、键值对算子#xff08;PairRDDFunctions#xff09;四、文件系统算子#xff08;File System#xff09;Spark 内置算子是指 S…Spark的常用算子 目录内容Spark的常用算子一、转换算子Transformation二、行动算子Action三、键值对算子PairRDDFunctions四、文件系统算子File SystemSpark 内置算子是指 Spark 提供的具有高性能、高效率和高可靠性的数据操作函数。Spark 内置算子可以帮助我们完成大量的数据预处理、处理和分析任务。其主要包括以下 4 类算子转换算子Transformation用于将一个 RDD 转换为另一个 RDD常见的有 map、flatMap、filter 等。 行动算子Action用于对 RDD 执行计算常见的有 reduce、collect、count 等。 键值对算子PairRDDFunctions用于处理 K-V 形式的 RDD常见的有 reduceByKey、groupByKey、sortByKey 等。 文件系统算子File System用于进行文件系统的操作常见的有 textFile、saveAsTextFile、wholeTextFiles 等。 下面简单介绍一下这些内置算子的详细用法 一、转换算子Transformation map(func): 将原 RDD 中的每个元素传递给函数 func得到一个新的 RDD。 flatMap(func): 与 map 类似但每个元素都可以生成多个输出这些输出被平铺flattening成一个新的 RDD。 filter(func): 返回输入 RDD 中通过函数 func 的筛选结果为 true 的元素。 distinct([numTasks])): 返回输入 RDD 中所有不同的元素可选参数 numTasks 指定任务的数量。 union(otherRDD): 返回对输入 RDD 和参数 RDD 执行联合操作的结果生成一个新的 RDD不去重。 intersection(otherRDD)): 返回对输入 RDD 和参数 RDD 执行交集操作的结果生成一个新的 RDD。 subtract(otherRDD): 返回对输入 RDD 和参数 RDD 执行差集操作的结果生成一个新的 RDD。 cartesian(otherRDD): 返回对输入 RDD 和参数 RDD 执行笛卡尔积的结果生成一个新的 RDD。 二、行动算子Action reduce(func): 使用函数 func 组合 RDD 中的所有元素返回计算结果。 collect(): 将 RDD 中的所有元素都返回给驱动程序程序。 count(): 返回 RDD 中元素的数量。 first(): 返回 RDD 的第一个元素。 take(n): 返回 RDD 的前 n 个元素。 takeSample(withReplacement, num, [seed]): 从 RDD 中随机取样 num 个元素withReplacement 指定是否允许取样后返回的元素有重复seed 指定随机数种子。 takeOrdered(n, [ordering]): 返回包含 RDD 前 n 个元素的列表元素是按顺序排序的。 aggregate(zeroValue, seqOp, combOp): 使用给定的函数对 RDD 的元素进行聚合seqOp 计算在分区中初始值到中间结果的聚合计算而 combOp 在节点上对中间结果进行聚合。 fold(zeroValue, func): 与 aggregate 类似但这里的 seqOp 和 combOp 相同。 foreach(func): 对 RDD 中的每个元素执行指定的函数。 三、键值对算子PairRDDFunctions reduceByKey(func, [numTasks]): 按键值对中的键将数据聚合在一起并使用给定的函数进行聚合。 groupByKey([numTasks]): 按键值对中的键将数据分组并生成一个迭代器该迭代器包含与每个唯一键关联的所有元素。 mapValues(func): 对键值对的值应用给定的函数。 flatMapValues(func): 对键值对的值应用给定的函数并生成一个迭代器该迭代器包含每个键的所有结果。 keys(): 返回键值对 RDD 中所有键的列表。 values(): 返回键值对 RDD 中所有值的列表。 sortByKey([ascending], [numTasks]): 对键值对 RDD 中的键进行排序ascending 指定是否按升序排序numTasks 指定任务数量。 四、文件系统算子File System textFile(path, [minPartitions]): 读取一个文件或文件系统中的所有文件并返回表示它们的 RDD。 wholeTextFiles(path, [minPartitions]): 读取一个文件或文件系统中的所有文件返回两项组成的元组第一项是文件名第二项是文件中的内容。 saveAsTextFile(path): 将 RDD 的内容写入一个文本文件。 saveAsSequenceFile(path): 将 RDD 的内容作为 Hadoop SequenceFile 保存。 saveAsObjectFile(path): 将 RDD 的内容序列化成字节并保存到文件中。
http://www.hkea.cn/news/14553769/

相关文章:

  • 北京网站改版多少钱湛江设计公司
  • 如何给网站做备份wordpress主题windows
  • 网站建设课程设计实验报告黄骅打牌吧
  • 重庆网站建设培训班马云1688网站在濮阳如何做
  • wordpress如何建立网站网站团购功能怎么做
  • 网站建设规划书范文5000字公众号开发周期
  • 做外贸没有网站需要注意什么条件wordpress企业官网主题
  • 青海网站开发 建设商城网站 不易优化
  • vs 网站项目html5微网站模板
  • 做网站需要提供的资料河北高端网站建设
  • 四川seo整站优化费用大学生饮料营销策划方案创意
  • 黑色背景的网站开发工具邯郸房产
  • 商河县做网站公司如果你会建网站
  • 推荐自助建网站平台电子建设网站的目的
  • 合肥做网站域名的公司太原免费建站
  • 免费空间访客领取网站直播网站建设需要什么软件
  • 互联网金融型网站开发肇庆东莞网站建设
  • 建设网站的风险6做任务打字赚钱的网站
  • 金戈西地那非片能延时多久网站整站优化
  • 寮步营销型网站建设极速建站系统开发
  • 个人建站除了wordpress如何写手机适配网站
  • 企业建站系统平台手机制作网页的app
  • 上海网站建设多少旅游攻略网站开发
  • 双语网站系统wordpress很难
  • 做百度手机网站快速排网站建设销售合同
  • 凯里公司网站建设济南疾控最新发布
  • 婚庆摄影网站模板制作图片工具
  • 网站设计企业联系方式内容中国建设银行官网开户行查询
  • 用excel可以做网站90平装修大约多少钱
  • 北京网站制作闪快电子商务营销师