当前位置: 首页 > news >正文

有没有专门做二手的网站厦门企业网站制作

有没有专门做二手的网站,厦门企业网站制作,青岛网站制作公司 网络服务,传媒 wordpressHive Hadoop Hive 和传统关系型数据库区别 Spark 概念 基于内存的分布式计算框架 只负责算 不负责存 spark 在离线计算 功能上 类似于mapreduce的作用 MapReduce的缺点 运行速度慢 #xff08;没有充分利用内存#xff09;接口比较简单#xff0c;仅支持Map Reduce功能… Hive Hadoop Hive 和传统关系型数据库区别 Spark 概念 基于内存的分布式计算框架 只负责算 不负责存 spark 在离线计算 功能上 类似于mapreduce的作用 MapReduce的缺点 运行速度慢 没有充分利用内存接口比较简单仅支持Map Reduce功能比较单一 只能做离线计算 Spark优势 运行速度快自身生态比较完整 spark sqlspark streamingspark mllib Spark ML api 比较丰富使用各种语言进行操作 RDD 的概念 弹性分布式数据集 spark当中对数据的抽象 所有spark中对数据的操作最终都会转换成RDD的操作 spark sqlspark streamingspark ml 、spark mllib RDD 分布式的 可容错 可以进行并行计算 rdd 的存储可以对比HDFS hdfs 数据拆分成多个block rdd 拆分成多个partition读取的时候 spark 加载hdfs数据 1个block 对应 spark rdd的一个partition写数据的时候 spark 1个partition 可能对应多个block RDD是不可变的 父RDD 生成一个子 RDD 父RDD的状态不会变化从容错的角度去做这样的设计 RDD的创建 创建RDD之前先要有spark context conf SparkConf().setAppName(appName).setMaster(master) sc SparkContext(confconf)通过内存中的数据创建RDD data [1, 2, 3, 4, 5] distData sc.parallelize(data) 创建RDD时可以指定 partition的数量RDD会分成几份一个partition会对应一个task根据CPU的内核数来指定partition (1核对应2~4个partition) 从文件创建RDD 可以是HDFS支持的任何一种存储介质 可以从 hdfs 数据库(mysql) 本地文件系统 hbase 这些地方加载数据创建RDDrdd sc.textFile(‘file:///root/tmp/test.txt’) RDD的三类算子 transformation 所有的transformation 都是延迟执行的只要不调用action 不会执行只是记录过程transformation 这一类算子返回值还是 rddrdd.transformation 还会得到新的rdd action 会触发之前的rdd所有的transformation获取最终的结果 persist 数据存储可以存到内存也可以是磁盘 通过pycharm 链接centos环境 ip地址统计案例 广播变量 如果多个task会用到同一份数据默认每个task都会复制一份 用到的数据如果只是查询可以通过广播变量保存避免数据的反复复制 SparkContext可以创建广播变量 广播变量 sc.broadcast(值) 广播变量。valuemapPartitions transformation操作类似map 但是map是一条一条传给里面函数的 mapPartitions 数据是一部分一部分传给函数的应用场景 数据处理的时候 需要连接其它资源 如果一条一条处理 会处理一条连一次 一份一份处理可以很多条数据连一次其它资源 可以提高效率 二分法查找 ip_transform 把223.243.0.0 转换成10进制的数字 spark standalone模式 Master 主节点负责Worker状态管理响应client 提交来的Application Worker 管理自身资源运行Application对应的task启动图driver 执行application Executor task 最终执行的容器 Application spark作业 Driver 作业提交给spark的时候 先由一个Worker启动一个Driver来分析ApplicationDAGScheduler task划分 交给TaskScheduler作业可以划分为多个stage每一个stage根据partition的数量决定由多少个task TaskScheduler 将task调度到对应的Executor上执行 Client spark core总结 spark core是 spark生态最核心的部分 spark 生态 spark core mapreducespark sql 类似于hivespark streaming storm、flinkspark ML 基于dataframe sparkmllib rdd spark 基于内存的 分布式计算框架 MapReduce 和 spark 优劣 spark 基于内存 算快spark api 更丰富 比mapreduce 代码少spark 生态完整 离线计算 spark core spark sql实时计算/流式计算 spark streaming 准实时交互式计算 spark sql dataframe机器学习 spark ML RDD 弹性分布式数据集不可变 rdd-rdd2 rdd和rdd2的状态会分别保存弹性 存储弹性 分布式弹性 容错可以分多个partition存 每个partition有多个副本分布式并行计算 RDD创建 spark context 在内存中 list iterable从文件中加载在创建rdd的时候可以指定partitons的数量 一个partition对应一个task 三类算子 transformation 返回rdd延迟执行 只要没调用action类算子 就不会执行 只是几下了执行计划 action 获取结果 spark local模式 standalone 广播变量 Hbase 回顾 面向列 列式存储 每一列数据是放到同一个文件中的 列与列之间存储的位置并不连续数据是一行一行存的每一行都是连续的 非关系型数据 NoSQL 关系型数据 非关系数据 事务 行级别事务 不是事务型数据库 CAP定理 CP系统行键(RowKey) 只有rowkey有索引列族(ColumnFamily) k:v数据库 查询性能类似的 k:v 放到同一个ColumnFamily中列修饰符(Column Qualifier) 在ColumnFamily下的 key:value对的key ColumnFamily:Column Qualifier:value HBase表设计需要注意的问题 HBase的特点 行级别事务 如果对跨行事务跨表事务有很高要求不适合用hbaserowkey有索引ColumnFamily 不宜过多Column Qualifier可以用来存储信息 Rowkey是HBase表结构设计中很重要的环节, 直接影响到HBase的效率和性能HBase的表结构比传统关系型数据库更灵活, 能存储任何二进制数据,无需考虑数据类型利用列标识(Column Qualifier)来存储数据衡量设计好坏的简单标准 是否会全表查询 HBase shell操作 Happybase 操作hbase Hbase 需要调整的地方 ①删除hadoop 上 /hbase目录 ②修改 /root/bigdata/hbase/conf/regionservers ​ 只保留hadoop_master ③修改hbase-site.xml configurationpropertynamehbase.rootdir/namevaluehdfs://hadoop-master:9000/hbase/value/propertypropertynamehbase.cluster.distributed/namevaluetrue/value/propertypropertynamehbase.zookeeper.property.clientPort/namevalue只保留之前的第一个值/value/propertypropertynamehbase.zookeeper.property.dataDir/namevalue保留之前的内容/value/propertypropertynamehbase.unsafe.stream.capability.enforce/namevaluefalse/value/property /configuration ④start-hbase.sh 启动hbase
http://www.hkea.cn/news/14514322/

相关文章:

  • 网站项目开发流程图cad dwt模板做网站模版
  • 网站开发收费表近三天重大新闻摘抄
  • 广州网站建设clov5r114分类信息网信息发布
  • 在那个网站做任务赚万网个人网站备案查询
  • 制作公司网站的规划最方便在线网站开发
  • 晋城网站建设电话二手商品网站开发背景
  • 网站备案号 放网站网站建设烟台
  • 东莞网站推广软件排版设计教程
  • 找谁做网站优化模板网站好还是自助建站好
  • 企业网站的建设与流程高校健康驿站建设指引
  • saas建站平台源码优惠券网站制作教程
  • 网络营销的主要形式有建设网站网站 建设开发合同模板
  • 杨彪网站建设怎么把自己做的网站发到网上通过网址来查看
  • 北京展示型网站旅游网站建设案例
  • apache添加多个网站网站怎么做优化推广
  • 室内设计师网站有哪些php 上传移动到网站根目录
  • 企业网站需求方案怎么修改php网站
  • 网站开发实训周报苏州网站建设 牛
  • html网站开发基础个人建站项目
  • 北京网站建设费用专业做红木家具网站
  • 一个购物网站开发的可行性备案号怎么放置到网站
  • 低代码建站wordpress salutation
  • 荆州网站建设514885网站建设报告书总结
  • 菏泽公司做网站小程序制作用华网天下首选
  • 免费虚拟主机免费空间河北网站seo地址
  • 网站结构有哪些类型金堂网站建设
  • python做的网站哪些做网站的技术性说明
  • 广州网站设计制作一般纳税人利润300万要交多少税
  • 广州 天河网站设计wordpress标题分隔符
  • 汉中网站建设费用公众号seo排名软件