中文建网站,网页实时翻译器,wordpress777,wordpress如何输入拼音大数据学习
#x1f525;系列专栏#xff1a; #x1f451;哲学语录: 承认自己的无知#xff0c;乃是开启智慧的大门 #x1f496;如果觉得博主的文章还不错的话#xff0c;请点赞#x1f44d;收藏⭐️留言#x1f4dd;支持一下博主哦#x1f91…
大数据学习
系列专栏 哲学语录: 承认自己的无知乃是开启智慧的大门 如果觉得博主的文章还不错的话请点赞收藏⭐️留言支持一下博主哦 Spark是一个基于内存计算的大数据并行计算框架具有快速、易用、通用等特点。它支持多种数据处理模式包括批处理、迭代算法、交互式查询、流处理等可以一站式地完成大数据领域的离线批处理、交互式查询、流式计算、机器学习、图计算等常见的任务。Spark内置了Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX等技术组件可以高效地处理大规模数据。相比于MapReduceSpark的中间输出结果可以缓存到内存中从而不再需要读写HDFS减少了磁盘数据交互能够更好地适应机器学习和数据挖掘等需要迭代的算法。
核心概念
RDD弹性分布式数据集RDD是Spark的基本计算单元一组RDD可形成执行的有向无环图RDD Graph并且具有“弹性”的特征既可以在内存优先存储并计算如果内存不够再拿磁盘顶上。执行器Executor在worker节点上启动的进程负责执行任务。Worker从节点负责控制计算节点启动Executor。Driver运行Application的main()函数并创建SparkContext应用程序的入口。和集群的executor进行交互。SparkContext整个应用的上下文控制应用的生命周期。StageSpark基本概念总结中的一个阶段由hdfs block或者hbase regioin数目决定。一个job可以划分为多个stagestage之间是并行关系。每个stage可以有多个task。ClusterManager在standalone模式中是Master主节点控制整个集群监控Worker。在YARN模式下是资源管理器。
ApplicationSpark应用程序是用户提交的Spark任务包含了应用程序的名称、集群的URL、提交的类名等信息。Application jarSpark应用程序打包后的jar文件包含了应用程序的代码和依赖项。Driver programSpark的驱动程序负责启动和管理应用程序的执行。在Spark中每个应用程序都有一个对应的驱动程序。Cluster managerSpark集群管理器负责在集群中分配和管理资源。Spark支持多种集群管理器例如Apache Mesos、YARN和Kubernetes等。Deploy modeSpark应用程序的部署模式它决定了应用程序如何在集群中运行。Spark支持三种部署模式client、cluster和clientcluster。Worker nodeSpark集群中的工作节点它负责运行Spark应用程序中的任务Task。ExecutorSpark应用程序运行在Executor上它是一个进程负责执行任务并管理应用程序的资源。每个Executor都有其自己的JVM和内存空间。TaskSpark任务是工作单元它负责处理数据集中的一个分片partition。每个任务都被调度到一个Executor上执行。JobSpark作业是一组相关的任务它们被一起调度和执行。一个作业可以包含多个阶段Stage。StageSpark阶段是作业的一部分它包含一组任务Task。阶段之间通过shuffle进行划分每个阶段都会进行一次shuffle操作。
总结来说Spark应用程序Application是用户提交的任务驱动程序Driver program负责启动和管理应用程序的执行集群管理器Cluster manager负责在集群中分配和管理资源部署模式Deploy mode决定了应用程序如何在集群中运行。工作节点Worker node是负责运行任务的节点而Executor进程负责执行任务和管理应用程序的资源。任务Task是工作单元作业Job是一组相关的任务阶段Stage则是作业的一部分包含一组任务。
之后会持续更新sparkhive已经学完啦