网站页面排版,成都建立网站的公司网站,网站建设详细流程,第一个做网站的是谁文章目录 项目地址一、Spark1. RDD1.1 五大核心属性1.2 执行原理1.3 四种创建方式二、Kafka2.1 生产者(1)分区器(2)生产者提高吞吐量(3) 生产者数据可靠性数据传递语义幂等性和事务数据有序2.2 Broker(1)Broker工作流程(2)节点服役和退役2.3 副本(1)Follower故障细… 文章目录 项目地址一、Spark1. RDD1.1 五大核心属性1.2 执行原理1.3 四种创建方式 二、Kafka2.1 生产者(1)分区器(2)生产者提高吞吐量(3) 生产者数据可靠性数据传递语义幂等性和事务数据有序 2.2 Broker(1)Broker工作流程(2)节点服役和退役 2.3 副本(1)Follower故障细节(2)生产经验——Leader Partition负载均衡(3)生产经验——增加副本因子 2.4 文件存储(1)文件清理策略(2) 高效读写数据 项目地址
教程作者:教程地址:代码仓库地址:所用到的框架和插件:dbt
airflow一、Spark
1. RDD 1.最小计算单元,读取数据时,进行了分区partition,然后将partion交给task 执行
弹性存储:内存和磁盘自动切换容错:丢失数据自动恢复计算:计算出错重试分片:根据需要重新分片1.1 五大核心属性
分区列表:RDD数据结构存在分区列表,用于执行并行计算,实现分布式计算的重要分区计算函数:使用同一个计算函数,对每一个分区进行计算RDD依赖关系:多个RDD形成的依赖关系,通过依赖关系形成列表分区器:将数据进行分区处理首选位置:1.2 执行原理
Spark 框架在执行时,先申请资源,创建调度节点和计算节点,然后将应用程序的数据处理逻辑分解成一个一个的计算任务。然后将任务发到已经分配资源的计算节点上,按照指定的计算模型进行数据计算。最后得到计算结果。 1.3 四种创建方式
从集合(内存)创建从外部存储(文件)创建RDD从其他的RDD创建直接创建RDD(NEW)二、Kafka
教程地址整体架构 kafka功能:缓存消峰解耦异步通讯消息模式: