当前位置: 首页 > news >正文

宣讲网站建设站长工具海角

宣讲网站建设,站长工具海角,做3ds磁铁卡网站,校园网站策划书文章目录 Spark基本命令详解一、引言二、Spark Core 基本命令1、Transformations(转换操作)1.1、groupBy(func)1.2、filter(func) 2、Actions(动作操作)2.1、distinct([numTasks])2.2、sortBy(func, [ascending], [numTasks]) 三、…

文章目录

  • Spark基本命令详解
    • 一、引言
    • 二、Spark Core 基本命令
      • 1、Transformations(转换操作)
        • 1.1、groupBy(func)
        • 1.2、filter(func)
      • 2、Actions(动作操作)
        • 2.1、distinct([numTasks])
        • 2.2、sortBy(func, [ascending], [numTasks])
    • 三、Spark SQL 基本命令
      • 3.1、读取数据
    • 四、使用示例
      • 4.1、统计年龄小于25岁的人群的爱好排行榜
    • 五、总结

Spark基本命令详解

一、引言

Apache Spark 是一个开源的分布式计算系统,它提供了一个快速且通用的集群计算平台。本文将详细介绍Spark的一些基本命令及其使用示例,帮助开发者更好地理解和应用Spark。
在这里插入图片描述

二、Spark Core 基本命令

1、Transformations(转换操作)

在Spark中,转换操作是指从一个RDD到另一个RDD的操作。以下是一些常用的转换操作:

1.1、groupBy(func)

groupBy(func):按照func的返回值进行分组。

val rdd1: RDD[Int] = sc.makeRDD(Array(1, 3, 4, 20, 4, 5, 8),2)
val rdd2 = rdd1.groupBy(x => if(x % 2 == 0) "odd" else "even")
rdd2.collect.foreach(kv => {kv._2.foreach(it => println(kv._1, it))
})
1.2、filter(func)

filter(func):过滤,返回一个新的RDD,由func的返回值为true的那些元素组成。

val rdd1 = sc.makeRDD(Array("xiaoli", "laoli", "laowang", "xiaocang", "xiaojing", "xiaokong"))
val rdd2 = rdd1.filter(_.contains("xiao"))
rdd2.collect().foreach(println)

2、Actions(动作操作)

动作操作是指从RDD计算得到最终结果的操作。以下是一些常用的动作操作:

2.1、distinct([numTasks])

distinct([numTasks]):对RDD中元素执行去重操作,参数表示任务的数量,默认值和分区数保持一致。

val rdd1: RDD[Int] = sc.makeRDD(Array(10, 10, 2, 5, 3, 5, 3, 6, 9, 1))
rdd1.distinct().collect().foreach(println)
2.2、sortBy(func, [ascending], [numTasks])

sortBy(func, [ascending], [numTasks]):使用func先对数据进行处理,按照处理后结果排序。

val rdd1: RDD[Int] = sc.makeRDD(Array(1,3,4,10,4,6,9,20,30,16))
val rdd2: RDD[Int] = rdd1.sortBy(x => x)
println(s"默认排序: ${rdd2.collect().mkString(", ")}")

三、Spark SQL 基本命令

3.1、读取数据

在Spark SQL中,你可以使用SparkSession来读取数据,并进行处理。以下是读取目录下文本数据的示例:

val spark: SparkSession = SparkSession.builder().master("local[*]").appName("SparkSQL").getOrCreate()
val sc: SparkContext = spark.sparkContext
sc.setLogLevel("WARN")
val Schema: StructType = new StructType().add("name","string").add("age","integer").add("hobby","string")
val dataDF: DataFrame = spark.readStream.schema(Schema).json("D:\\data\\spark\\data")

四、使用示例

4.1、统计年龄小于25岁的人群的爱好排行榜

以下是一个使用Spark Structured Streaming进行实时数据处理的示例,统计年龄小于25岁的人群的爱好排行榜:

import spark.implicits._
val result: Dataset[Row] = dataDF.filter($"age" < 25).groupBy("hobby").count().sort($"count".desc)
result.writeStream.format("console").outputMode("complete").trigger(Trigger.ProcessingTime(0)).start().awaitTermination()

五、总结

Spark提供了丰富的基本命令,使得大数据处理变得简单高效。通过掌握这些基本命令,开发者可以更加灵活地处理各种复杂的数据处理任务。希望本文能够帮助你更好地理解和使用Spark。


版权声明:本博客内容为原创,转载请保留原文链接及作者信息。

参考文章

  • Spark:一文带你掌握Spark基础命令_spark命令-CSDN博客
http://www.hkea.cn/news/735207/

相关文章:

  • 网站建设后期维护百度快速收录技术
  • 网站建设中的推广工作seo学校培训
  • 上海专业网站建设网百度搜索推广开户
  • 做学校网站素材图片合肥seo代理商
  • 真题真做报名网站淘宝搜索关键词排名
  • 免费的黄冈网站有哪些平台?培训行业seo整站优化
  • 寿县住房与城乡建设局网站真正免费的网站建站平台
  • 常德seo招聘网站seo站长工具
  • 网站开发多久完成俄罗斯搜索引擎yandex推广入口
  • 漳州做网站建设建网站免费
  • 网站建设服务上海广州软文推广公司
  • 做一个网站app需要多少钱web制作网站的模板
  • 网站建设的财务计划新媒体营销策略有哪些
  • 网站建设分金手指专业二八宁波品牌网站推广优化
  • 清远网站建设公司百度游戏风云榜
  • 网上可以自学什么技术win7系统优化软件
  • 嘉兴建站软件如何做好企业网站的推广
  • 在凡科做网站短视频推广
  • 深圳推广公司推荐q群排名优化软件
  • 什么网站做简历模板宁德市医院
  • 用什么软件做公司网站游戏推广赚佣金的平台
  • 购物网站 后台模板河北seo技术培训
  • 聊城建设委员会官方网站google seo
  • 广西建设网郭业棚seo推广具体做什么
  • 武汉网站seo诊断谷歌下载官网
  • 做地方网站能赚钱吗免费seo网站诊断
  • 图片设计在线网站推广优化外包便宜
  • 武汉平价做网站网络软文推广案例
  • 新产品线上推广方案鞍山seo外包
  • 网站建网站建设和优佛山网络推广培训