当前位置：首页 > news >正文

免费psd模板网站建设银行信用卡申请网站

news 2026/4/18 9:28:15

免费psd模板网站,建设银行信用卡申请网站,wordpress列表页文章摘要,吴江专业的网站建设Hive Hadoop Hive 和传统关系型数据库区别 Spark 概念基于内存的分布式计算框架只负责算不负责存 spark 在离线计算功能上类似于mapreduce的作用 MapReduce的缺点运行速度慢 #xff08;没有充分利用内存#xff09;接口比较简单#xff0c;仅支持Map Reduce功能… Hive Hadoop Hive 和传统关系型数据库区别 Spark 概念基于内存的分布式计算框架只负责算不负责存 spark 在离线计算功能上类似于mapreduce的作用 MapReduce的缺点运行速度慢没有充分利用内存接口比较简单仅支持Map Reduce功能比较单一只能做离线计算 Spark优势运行速度快自身生态比较完整 spark sqlspark streamingspark mllib Spark ML api 比较丰富使用各种语言进行操作 RDD 的概念弹性分布式数据集 spark当中对数据的抽象所有spark中对数据的操作最终都会转换成RDD的操作 spark sqlspark streamingspark ml 、spark mllib RDD 分布式的可容错可以进行并行计算 rdd 的存储可以对比HDFS hdfs 数据拆分成多个block rdd 拆分成多个partition读取的时候 spark 加载hdfs数据 1个block 对应 spark rdd的一个partition写数据的时候 spark 1个partition 可能对应多个block RDD是不可变的父RDD 生成一个子 RDD 父RDD的状态不会变化从容错的角度去做这样的设计 RDD的创建创建RDD之前先要有spark context conf SparkConf().setAppName(appName).setMaster(master) sc SparkContext(confconf)通过内存中的数据创建RDD data [1, 2, 3, 4, 5] distData sc.parallelize(data) 创建RDD时可以指定 partition的数量RDD会分成几份一个partition会对应一个task根据CPU的内核数来指定partition (1核对应2~4个partition) 从文件创建RDD 可以是HDFS支持的任何一种存储介质可以从 hdfs 数据库(mysql) 本地文件系统 hbase 这些地方加载数据创建RDDrdd sc.textFile(‘file:///root/tmp/test.txt’) RDD的三类算子 transformation 所有的transformation 都是延迟执行的只要不调用action 不会执行只是记录过程transformation 这一类算子返回值还是 rddrdd.transformation 还会得到新的rdd action 会触发之前的rdd所有的transformation获取最终的结果 persist 数据存储可以存到内存也可以是磁盘通过pycharm 链接centos环境 ip地址统计案例广播变量如果多个task会用到同一份数据默认每个task都会复制一份用到的数据如果只是查询可以通过广播变量保存避免数据的反复复制 SparkContext可以创建广播变量广播变量 sc.broadcast(值) 广播变量。valuemapPartitions transformation操作类似map 但是map是一条一条传给里面函数的 mapPartitions 数据是一部分一部分传给函数的应用场景数据处理的时候需要连接其它资源如果一条一条处理会处理一条连一次一份一份处理可以很多条数据连一次其它资源可以提高效率二分法查找 ip_transform 把223.243.0.0 转换成10进制的数字 spark standalone模式 Master 主节点负责Worker状态管理响应client 提交来的Application Worker 管理自身资源运行Application对应的task启动图driver 执行application Executor task 最终执行的容器 Application spark作业 Driver 作业提交给spark的时候先由一个Worker启动一个Driver来分析ApplicationDAGScheduler task划分交给TaskScheduler作业可以划分为多个stage每一个stage根据partition的数量决定由多少个task TaskScheduler 将task调度到对应的Executor上执行 Client spark core总结 spark core是 spark生态最核心的部分 spark 生态 spark core mapreducespark sql 类似于hivespark streaming storm、flinkspark ML 基于dataframe sparkmllib rdd spark 基于内存的分布式计算框架 MapReduce 和 spark 优劣 spark 基于内存算快spark api 更丰富比mapreduce 代码少spark 生态完整离线计算 spark core spark sql实时计算/流式计算 spark streaming 准实时交互式计算 spark sql dataframe机器学习 spark ML RDD 弹性分布式数据集不可变 rdd-rdd2 rdd和rdd2的状态会分别保存弹性存储弹性分布式弹性容错可以分多个partition存每个partition有多个副本分布式并行计算 RDD创建 spark context 在内存中 list iterable从文件中加载在创建rdd的时候可以指定partitons的数量一个partition对应一个task 三类算子 transformation 返回rdd延迟执行只要没调用action类算子就不会执行只是几下了执行计划 action 获取结果 spark local模式 standalone 广播变量 Hbase 回顾面向列列式存储每一列数据是放到同一个文件中的列与列之间存储的位置并不连续数据是一行一行存的每一行都是连续的非关系型数据 NoSQL 关系型数据非关系数据事务行级别事务不是事务型数据库 CAP定理 CP系统行键(RowKey) 只有rowkey有索引列族(ColumnFamily) k:v数据库查询性能类似的 k:v 放到同一个ColumnFamily中列修饰符(Column Qualifier) 在ColumnFamily下的 key:value对的key ColumnFamily:Column Qualifier:value HBase表设计需要注意的问题 HBase的特点行级别事务如果对跨行事务跨表事务有很高要求不适合用hbaserowkey有索引ColumnFamily 不宜过多Column Qualifier可以用来存储信息 Rowkey是HBase表结构设计中很重要的环节, 直接影响到HBase的效率和性能HBase的表结构比传统关系型数据库更灵活, 能存储任何二进制数据,无需考虑数据类型利用列标识(Column Qualifier)来存储数据衡量设计好坏的简单标准是否会全表查询 HBase shell操作 Happybase 操作hbase Hbase 需要调整的地方 ①删除hadoop 上 /hbase目录 ②修改 /root/bigdata/hbase/conf/regionservers 只保留hadoop_master ③修改hbase-site.xml configurationpropertynamehbase.rootdir/namevaluehdfs://hadoop-master:9000/hbase/value/propertypropertynamehbase.cluster.distributed/namevaluetrue/value/propertypropertynamehbase.zookeeper.property.clientPort/namevalue只保留之前的第一个值/value/propertypropertynamehbase.zookeeper.property.dataDir/namevalue保留之前的内容/value/propertypropertynamehbase.unsafe.stream.capability.enforce/namevaluefalse/value/property /configuration ④start-hbase.sh 启动hbase

查看全文

http://www.hkea.cn/news/14312806/