当前位置: 首页 > news >正文

免费psd模板网站建设银行信用卡申请网站

免费psd模板网站,建设银行信用卡申请网站,wordpress列表页文章摘要,吴江专业的网站建设Hive Hadoop Hive 和传统关系型数据库区别 Spark 概念 基于内存的分布式计算框架 只负责算 不负责存 spark 在离线计算 功能上 类似于mapreduce的作用 MapReduce的缺点 运行速度慢 #xff08;没有充分利用内存#xff09;接口比较简单#xff0c;仅支持Map Reduce功能… Hive Hadoop Hive 和传统关系型数据库区别 Spark 概念 基于内存的分布式计算框架 只负责算 不负责存 spark 在离线计算 功能上 类似于mapreduce的作用 MapReduce的缺点 运行速度慢 没有充分利用内存接口比较简单仅支持Map Reduce功能比较单一 只能做离线计算 Spark优势 运行速度快自身生态比较完整 spark sqlspark streamingspark mllib Spark ML api 比较丰富使用各种语言进行操作 RDD 的概念 弹性分布式数据集 spark当中对数据的抽象 所有spark中对数据的操作最终都会转换成RDD的操作 spark sqlspark streamingspark ml 、spark mllib RDD 分布式的 可容错 可以进行并行计算 rdd 的存储可以对比HDFS hdfs 数据拆分成多个block rdd 拆分成多个partition读取的时候 spark 加载hdfs数据 1个block 对应 spark rdd的一个partition写数据的时候 spark 1个partition 可能对应多个block RDD是不可变的 父RDD 生成一个子 RDD 父RDD的状态不会变化从容错的角度去做这样的设计 RDD的创建 创建RDD之前先要有spark context conf SparkConf().setAppName(appName).setMaster(master) sc SparkContext(confconf)通过内存中的数据创建RDD data [1, 2, 3, 4, 5] distData sc.parallelize(data) 创建RDD时可以指定 partition的数量RDD会分成几份一个partition会对应一个task根据CPU的内核数来指定partition (1核对应2~4个partition) 从文件创建RDD 可以是HDFS支持的任何一种存储介质 可以从 hdfs 数据库(mysql) 本地文件系统 hbase 这些地方加载数据创建RDDrdd sc.textFile(‘file:///root/tmp/test.txt’) RDD的三类算子 transformation 所有的transformation 都是延迟执行的只要不调用action 不会执行只是记录过程transformation 这一类算子返回值还是 rddrdd.transformation 还会得到新的rdd action 会触发之前的rdd所有的transformation获取最终的结果 persist 数据存储可以存到内存也可以是磁盘 通过pycharm 链接centos环境 ip地址统计案例 广播变量 如果多个task会用到同一份数据默认每个task都会复制一份 用到的数据如果只是查询可以通过广播变量保存避免数据的反复复制 SparkContext可以创建广播变量 广播变量 sc.broadcast(值) 广播变量。valuemapPartitions transformation操作类似map 但是map是一条一条传给里面函数的 mapPartitions 数据是一部分一部分传给函数的应用场景 数据处理的时候 需要连接其它资源 如果一条一条处理 会处理一条连一次 一份一份处理可以很多条数据连一次其它资源 可以提高效率 二分法查找 ip_transform 把223.243.0.0 转换成10进制的数字 spark standalone模式 Master 主节点负责Worker状态管理响应client 提交来的Application Worker 管理自身资源运行Application对应的task启动图driver 执行application Executor task 最终执行的容器 Application spark作业 Driver 作业提交给spark的时候 先由一个Worker启动一个Driver来分析ApplicationDAGScheduler task划分 交给TaskScheduler作业可以划分为多个stage每一个stage根据partition的数量决定由多少个task TaskScheduler 将task调度到对应的Executor上执行 Client spark core总结 spark core是 spark生态最核心的部分 spark 生态 spark core mapreducespark sql 类似于hivespark streaming storm、flinkspark ML 基于dataframe sparkmllib rdd spark 基于内存的 分布式计算框架 MapReduce 和 spark 优劣 spark 基于内存 算快spark api 更丰富 比mapreduce 代码少spark 生态完整 离线计算 spark core spark sql实时计算/流式计算 spark streaming 准实时交互式计算 spark sql dataframe机器学习 spark ML RDD 弹性分布式数据集不可变 rdd-rdd2 rdd和rdd2的状态会分别保存弹性 存储弹性 分布式弹性 容错可以分多个partition存 每个partition有多个副本分布式并行计算 RDD创建 spark context 在内存中 list iterable从文件中加载在创建rdd的时候可以指定partitons的数量 一个partition对应一个task 三类算子 transformation 返回rdd延迟执行 只要没调用action类算子 就不会执行 只是几下了执行计划 action 获取结果 spark local模式 standalone 广播变量 Hbase 回顾 面向列 列式存储 每一列数据是放到同一个文件中的 列与列之间存储的位置并不连续数据是一行一行存的每一行都是连续的 非关系型数据 NoSQL 关系型数据 非关系数据 事务 行级别事务 不是事务型数据库 CAP定理 CP系统行键(RowKey) 只有rowkey有索引列族(ColumnFamily) k:v数据库 查询性能类似的 k:v 放到同一个ColumnFamily中列修饰符(Column Qualifier) 在ColumnFamily下的 key:value对的key ColumnFamily:Column Qualifier:value HBase表设计需要注意的问题 HBase的特点 行级别事务 如果对跨行事务跨表事务有很高要求不适合用hbaserowkey有索引ColumnFamily 不宜过多Column Qualifier可以用来存储信息 Rowkey是HBase表结构设计中很重要的环节, 直接影响到HBase的效率和性能HBase的表结构比传统关系型数据库更灵活, 能存储任何二进制数据,无需考虑数据类型利用列标识(Column Qualifier)来存储数据衡量设计好坏的简单标准 是否会全表查询 HBase shell操作 Happybase 操作hbase Hbase 需要调整的地方 ①删除hadoop 上 /hbase目录 ②修改 /root/bigdata/hbase/conf/regionservers ​ 只保留hadoop_master ③修改hbase-site.xml configurationpropertynamehbase.rootdir/namevaluehdfs://hadoop-master:9000/hbase/value/propertypropertynamehbase.cluster.distributed/namevaluetrue/value/propertypropertynamehbase.zookeeper.property.clientPort/namevalue只保留之前的第一个值/value/propertypropertynamehbase.zookeeper.property.dataDir/namevalue保留之前的内容/value/propertypropertynamehbase.unsafe.stream.capability.enforce/namevaluefalse/value/property /configuration ④start-hbase.sh 启动hbase
http://www.hkea.cn/news/14312806/

相关文章:

  • 网站项目开发流程图厦门的商城网站建设
  • 网站优化是在哪里做修改网站做不做双解析
  • 个人建 行业 网站南山网站公司
  • 工程技术研究中心网站建设要求手机网站建设哪家好
  • 建设网站比较好公司公司运营策划营销
  • 织梦唯美网站源码品牌标识设计
  • 网站快速优化排名官网接家装活找哪个平台
  • 网站什么也没动怎么不收录啦sns社交网站 建设文档
  • 后缀为net的网站有哪些石家庄设计网站公司
  • 一个一起做网站网络安全有名的培训学校
  • 网站如何盈利流量费青县网站建设咨询
  • 用书籍上的文章做网站更新创新的天津网站建设
  • 男女性直接做的视频网站青岛市区商场黄页
  • 徐州建站网页建设自己做的网站涉黄
  • 英语培训网站源码网站开发工程师asp考试
  • 建设门户网站导购网站 模板
  • 网站建设招标书江苏国泰做的网站案例
  • 免费建站模板横栏网站建设
  • 南昌网站排名优化软件五屏网站建设公司
  • 上海专业网站建站公司做网站要什么
  • 医疗网站开发pptwordpress 图片模版
  • 网站注册申请专业的营销型网站
  • 网站建设策划书5000字wordpress订单
  • 做阿里云网站的公司企业展厅设计风格
  • 合肥建设工程质量监督局网站wordpress 输出时间
  • 青海高端网站建设多少钱成都私人借钱空放私人
  • wordpress 菜单保存在哪里没有网站怎么做seo
  • 北京建设银行支行查询官方网站手机软件怎么制作
  • mianf网站桂林房价
  • 做数据权威的网站外贸网络推广方案