当前位置: 首页 > news >正文

公司网站主页怎么做网站商城开发公司

公司网站主页怎么做,网站商城开发公司,做汽配的外贸网站,重庆网站建设技术支持Hive Hadoop Hive 和传统关系型数据库区别 Spark 概念 基于内存的分布式计算框架 只负责算 不负责存 spark 在离线计算 功能上 类似于mapreduce的作用 MapReduce的缺点 运行速度慢 #xff08;没有充分利用内存#xff09;接口比较简单#xff0c;仅支持Map Reduce功能… Hive Hadoop Hive 和传统关系型数据库区别 Spark 概念 基于内存的分布式计算框架 只负责算 不负责存 spark 在离线计算 功能上 类似于mapreduce的作用 MapReduce的缺点 运行速度慢 没有充分利用内存接口比较简单仅支持Map Reduce功能比较单一 只能做离线计算 Spark优势 运行速度快自身生态比较完整 spark sqlspark streamingspark mllib Spark ML api 比较丰富使用各种语言进行操作 RDD 的概念 弹性分布式数据集 spark当中对数据的抽象 所有spark中对数据的操作最终都会转换成RDD的操作 spark sqlspark streamingspark ml 、spark mllib RDD 分布式的 可容错 可以进行并行计算 rdd 的存储可以对比HDFS hdfs 数据拆分成多个block rdd 拆分成多个partition读取的时候 spark 加载hdfs数据 1个block 对应 spark rdd的一个partition写数据的时候 spark 1个partition 可能对应多个block RDD是不可变的 父RDD 生成一个子 RDD 父RDD的状态不会变化从容错的角度去做这样的设计 RDD的创建 创建RDD之前先要有spark context conf SparkConf().setAppName(appName).setMaster(master) sc SparkContext(confconf)通过内存中的数据创建RDD data [1, 2, 3, 4, 5] distData sc.parallelize(data) 创建RDD时可以指定 partition的数量RDD会分成几份一个partition会对应一个task根据CPU的内核数来指定partition (1核对应2~4个partition) 从文件创建RDD 可以是HDFS支持的任何一种存储介质 可以从 hdfs 数据库(mysql) 本地文件系统 hbase 这些地方加载数据创建RDDrdd sc.textFile(‘file:///root/tmp/test.txt’) RDD的三类算子 transformation 所有的transformation 都是延迟执行的只要不调用action 不会执行只是记录过程transformation 这一类算子返回值还是 rddrdd.transformation 还会得到新的rdd action 会触发之前的rdd所有的transformation获取最终的结果 persist 数据存储可以存到内存也可以是磁盘 通过pycharm 链接centos环境 ip地址统计案例 广播变量 如果多个task会用到同一份数据默认每个task都会复制一份 用到的数据如果只是查询可以通过广播变量保存避免数据的反复复制 SparkContext可以创建广播变量 广播变量 sc.broadcast(值) 广播变量。valuemapPartitions transformation操作类似map 但是map是一条一条传给里面函数的 mapPartitions 数据是一部分一部分传给函数的应用场景 数据处理的时候 需要连接其它资源 如果一条一条处理 会处理一条连一次 一份一份处理可以很多条数据连一次其它资源 可以提高效率 二分法查找 ip_transform 把223.243.0.0 转换成10进制的数字 spark standalone模式 Master 主节点负责Worker状态管理响应client 提交来的Application Worker 管理自身资源运行Application对应的task启动图driver 执行application Executor task 最终执行的容器 Application spark作业 Driver 作业提交给spark的时候 先由一个Worker启动一个Driver来分析ApplicationDAGScheduler task划分 交给TaskScheduler作业可以划分为多个stage每一个stage根据partition的数量决定由多少个task TaskScheduler 将task调度到对应的Executor上执行 Client spark core总结 spark core是 spark生态最核心的部分 spark 生态 spark core mapreducespark sql 类似于hivespark streaming storm、flinkspark ML 基于dataframe sparkmllib rdd spark 基于内存的 分布式计算框架 MapReduce 和 spark 优劣 spark 基于内存 算快spark api 更丰富 比mapreduce 代码少spark 生态完整 离线计算 spark core spark sql实时计算/流式计算 spark streaming 准实时交互式计算 spark sql dataframe机器学习 spark ML RDD 弹性分布式数据集不可变 rdd-rdd2 rdd和rdd2的状态会分别保存弹性 存储弹性 分布式弹性 容错可以分多个partition存 每个partition有多个副本分布式并行计算 RDD创建 spark context 在内存中 list iterable从文件中加载在创建rdd的时候可以指定partitons的数量 一个partition对应一个task 三类算子 transformation 返回rdd延迟执行 只要没调用action类算子 就不会执行 只是几下了执行计划 action 获取结果 spark local模式 standalone 广播变量 Hbase 回顾 面向列 列式存储 每一列数据是放到同一个文件中的 列与列之间存储的位置并不连续数据是一行一行存的每一行都是连续的 非关系型数据 NoSQL 关系型数据 非关系数据 事务 行级别事务 不是事务型数据库 CAP定理 CP系统行键(RowKey) 只有rowkey有索引列族(ColumnFamily) k:v数据库 查询性能类似的 k:v 放到同一个ColumnFamily中列修饰符(Column Qualifier) 在ColumnFamily下的 key:value对的key ColumnFamily:Column Qualifier:value HBase表设计需要注意的问题 HBase的特点 行级别事务 如果对跨行事务跨表事务有很高要求不适合用hbaserowkey有索引ColumnFamily 不宜过多Column Qualifier可以用来存储信息 Rowkey是HBase表结构设计中很重要的环节, 直接影响到HBase的效率和性能HBase的表结构比传统关系型数据库更灵活, 能存储任何二进制数据,无需考虑数据类型利用列标识(Column Qualifier)来存储数据衡量设计好坏的简单标准 是否会全表查询 HBase shell操作 Happybase 操作hbase Hbase 需要调整的地方 ①删除hadoop 上 /hbase目录 ②修改 /root/bigdata/hbase/conf/regionservers ​ 只保留hadoop_master ③修改hbase-site.xml configurationpropertynamehbase.rootdir/namevaluehdfs://hadoop-master:9000/hbase/value/propertypropertynamehbase.cluster.distributed/namevaluetrue/value/propertypropertynamehbase.zookeeper.property.clientPort/namevalue只保留之前的第一个值/value/propertypropertynamehbase.zookeeper.property.dataDir/namevalue保留之前的内容/value/propertypropertynamehbase.unsafe.stream.capability.enforce/namevaluefalse/value/property /configuration ④start-hbase.sh 启动hbase
http://www.hkea.cn/news/14569688/

相关文章:

  • 网站为契机建设校园数字化浏览器打不开wordpress
  • 台州做网站电话广东省建设厅网站查询
  • 成都网站建制作国外那些视频网站做的不错
  • 网站整站下载网站 方案
  • 嘉兴南湖区优秀营销型网站建设南昌企业网站排名优化
  • 网站建设的行业客户合肥建设局网站
  • 科技类公司网站怎么设计青岛网上房地产网官网
  • vue做网站的优缺点新建网站怎么保存
  • 机械设备 东莞网站建设发烧病例单子图片在线制作
  • 湛江企业自助建站系统百度惠生活小程序
  • 网站建设哪里最好接单子建站流程
  • 网站正在建设中的代码注册个人订阅号
  • 网站建设58关于静态网站开发相关新闻
  • 建设项目查询网站深圳市官网网站建设
  • 模拟网站开发wordpress收费资源下载
  • 网站开速度几秒国家开发投资集团有限公司
  • 湖南营销型网站建设磐石网络关于网站建设要花多少钱
  • 在自己电脑建设网站全网热搜关键词排行榜
  • 网站底部版权代码网站部署环境
  • 浙江均泰建设有限公司网站建筑工程网正保
  • 西安 做网站 499线上设计师接单
  • 初学者学做网站用什么软件湖南建设银行网站
  • 直播教育网站建设做游戏网站多少钱
  • 广告设计网站官网焦作做网站最专业的公司
  • 山东住房和城乡建设厅网站教育中心亿唐网不做网站做品牌案例分析
  • 网站排名软件优化北京建设网站有哪些公司
  • 去哪里找做网站的seo百度点击软件
  • 网站维护运营智能小程序WordPress
  • 长沙装修网站排名网站建设策划模板下载
  • 网站建设推广内容海盐县建设门户网站