当前位置: 首页 > news >正文

铜仁网站建设专业推广企业网站公司

铜仁网站建设,专业推广企业网站公司,phpwind能做网站吗,洛米原创wordpress文章目录 基础概念和Kylin简介 一、​​​​​​​OLTP与OLAP 1、​​​​​​​​​​​​​​OLTP 2、​​​​​​​​​​​​​​OLAP 3、​​​​​​​​​​​​​​OLTP与OLAP的关系 二、​​​​​​​​​​​​​​数据分析模型 1、星型模型 2、雪花模型 … 文章目录 基础概念和Kylin简介 一、​​​​​​​OLTP与OLAP 1、​​​​​​​​​​​​​​OLTP 2、​​​​​​​​​​​​​​OLAP 3、​​​​​​​​​​​​​​OLTP与OLAP的关系 二、​​​​​​​​​​​​​​数据分析模型 1、星型模型 2、雪花模型 三、​​​​​​​​​​​​​​联机数据分析OLAP问题 四、​​​​​​​什么是Kylin以及Kylin的架构原理 基础概念和Kylin简介 一、​​​​​​​​​​​​​​OLTP与OLAP 数据处理大致可以分成两大类联机事务处理OLTPon-line transaction processing、联机分析处理OLAPOn-Line Analytical Processing。 1、​​​​​​​​​​​​​​OLTP OLTPOn-Line Transaction Processing联机事务处理OLTP是传统的关系型数据库的主要应用主要是基本的、日常的事务处理例如银行交易。主要用于业务类系统主要供基层人员使用进行一线业务操作。 OLTP表示事务性非常高的系统一般都是高可用的在线系统以小的事务以及小的查询为主评估其系统的时候一般看其每秒执行的Transaction以及Execute SQL的数量。在这样的系统中单个数据库每秒处理的Transaction往往超过几百个或者是几千个Select 语句的执行量每秒几千甚至几万个。典型的OLTP系统有电子商务系统、银行、证券等如美国eBay的业务数据库就是很典型的OLTP数据库。 2、​​​​​​​​​​​​​​OLAP OLAPOn-Line Analytical Processing联机分析处理OLAP是数据仓库系统的主要应用支持复杂的分析操作侧重决策支持并且提供直观易懂的查询结果。OLAP数据分析的目标是探索并挖掘数据价值作为企业高层进行决策的参考。 OLAP分析处理是一种共享多维信息的快速分析技术OLAP利用多维数据库技术使用户从不同角度观察数据OLAP用于支持复杂的分析操作侧重于对管理人员的决策支持可以满足分析人员快速、灵活地进行大数据量的复杂查询的要求并且以一种直观、易懂的形式呈现查询结果辅助决策。 事实表和维度表 事实表发生在现实世界中的操作型事件其所产生的可度量数值存储在事实表中。例如一个按照地区、产品、月份划分的销售量和销售额的事实表如下 维度表对事实表中事件的要素的描述信息。维度表包含了维度的每个成员的特定名称。维度成员的名称称为“属性”(Attribute)假设“产品ID”维度表中有3种产品例如 OLAP基本概念 变量度量变量是数据度量的指标是数据的实际意义描述数据是什么 例如人员信息表中的“工资”信息。一般度量列都是可以统计的数值类型列。 维度描述与业务主题相关的一组属性。例如“性别”“时间”等。一个维度往往有多个层次。 例如时间维度分为年、季度、月和日等层次。地区维度可以包含国家、地区、省、市、县等。 事实不同维度在某一取值下的度量。可以理解成维度度量构成了事实。 OLAP特点 快速性用户对OLAP的快速反应能力有很高的要求。系统应能在5秒内对用户的大部分分析要求做出反应。可分析性OLAP系统应能处理与应用有关的任何逻辑分析和统计分析。多维性多维性是OLAP的关键属性。系统必须提供对数据的多维视图和分析包括对层次维和多重层次维的完全支持。信息性不论数据量有多大也不管数据存储在何处OLAP系统应能及时获得信息并且管理大容量信息。  OLAP分类 按照存储方式分类分为以下几类 ROLAP Relational OLAPROLAP使用关系数据库存储管理数据仓库以关系表存储多维数据有较强的可伸缩性。其中维数据存储在维表中而事实数据和维ID则存储在事实表中维表和事实表通过主外键关联。 MOLAP Multidimension OLAP MOLAP支持数据的多维视图采用多维数据组存储数据它把维映射到多维数组的下标或下标的范围而事实数据存储在数组单元中从而实现了多维视图到数组的映射形成了立方体的结构。 HOLAPHybrid OLAPHOLAP是混合型OLAP, 表示基于混合数据组织的OLAP实现如低层是关系型的高层是多维矩阵型的。这种方式具有更好的灵活性。特点是将明细数据保留在关系型数据库的事实表中但是聚合后数据保存在Cube中查询效率比ROLAP高但性能低于MOLAP。 按照处理方式分类 Server OLAP绝大多数的OLAP系统都属于此类Server OLAP在服务端的数据库上建立多维数据立方体由服务端提供多维分析并把最终结果呈现给用户。 Client OLAP所相关立方体数据下载到本地由本地为用户提供多维分析从而保证在网络故障时仍然能正常工作。 OLAP基本操作 钻取Drill-down在维的不同层次间的变化从上层降到下一层或者说是将汇总数据拆分到更细节的数据比如通过对第二季度的总销售数据进行钻取来查看第二季度4、5、6每个月的消费数据。 上卷Roll-up钻取的逆操作即从细粒度数据向高层的聚合如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据。 切片Slice选择维中特定的值进行分析比如只选择电子产品的销售数据或者第二季度的数据。 切块Dice选择维中特定区间的数据或者某批特定值进行分析比如选择第一季度到第二季度的销售数据或者是电子产品和日用品的销售数据。 旋转Pivot即维的位置的互换就像是二维表的行列转换如图中通过旋转实现产品维和地域维的互换。 3、​​​​​​​​​​​​​​OLTP与OLAP的关系 从功能角度来看OLTP负责基本业务的正常运转而业务数据积累时所产生的价值信息则被OLAP不断呈现企业高层通过参考这些信息会不断调整经营方针也会促进基础业务的不断优化这是OLTP与OLAP最根本的区别。 二、​​​​​​​​​​​​​​数据分析模型 OLAP分析中根据事实表和维度表的关系可以将数据分析模型分为星型模型和雪花模型。在设计数仓时就应该考虑数据应该按照星型模型还是雪花模型进行组织。 1、星型模型 当所有的维度表都由连接键连接到事实表时结构图如星星一样这种分析模型就是星型模型。如下图星型架构是一种非正规化的结构多维数据集的每一个维度都直接与事实表相连接不存在渐变维度所以数据有一定的冗余如在下图中时间维中存在A年1季度1月A年1季度2月两条记录那么A年1季度被存储了2次存在冗余。 2、雪花模型 当有一个或多个维表没有直接连接到事实表上而是通过其他维表连接到事实表上时其结构图就像雪花连接在一起这种分析模型就是雪花模型。如下图雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化原有的各维表可能被扩展为小的事实表形成一些局部的“层次”区域这些被分解的表都连接到主维度表而不是事实表。如下图中将地域维表又分解为国家省份城市等维表。它的优点是通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能雪花型结构去除了数据冗余。 星型模型因为数据的冗余所以很多统计查询不需要做外部的连接因此一般情况下效率比雪花型模型要高。星型结构不用考虑很多正规化的因素设计与实现都比较简单。雪花型模型由于去除了冗余有些统计就需要通过表的联接才能产生所以效率不一定有星型模型高。正规化也是一种比较复杂的过程相应的数据库结构设计、数据的 ETL、以及后期的维护都要复杂一些。因此在冗余可以接受的前提下实际运用中星型模型使用更多也更有效率。 三、​​​​​​​​​​​​​​联机数据分析OLAP问题 问题数据规模决定要选择高效的处理技术 北京电信用户规模超过两千万每天入库的原始数据超过三百亿条。经过处理后入库的数据是3TB而集群规模是400TB存储每天执行的任务超过800个其中大概有 600-700 个是属于临时产生的任务查询情况多变比如开发或者测试人员进行数据测试或者临时统计某些需求生成报表等且要求响应速度快所以集群很繁忙。如果不选择高效的数据处理技术将无法满足分析需求。如下图所示 问题数据查询需求的困境 分析人员、优化人员对数据的临时性查询越来越多探索性数据需求越来越旺盛需要找到一个方法来满足这类需求。首先可以寻求固定化报表方式解决可以做很多报表放在 MySQL 里供查询。但这样做非常不灵活开发周期缓慢而且经常出现需求变更和需求不明确的情况所以报表只适用于固定化场景的情况。 使用 Hive 、 Spark Sql、impala 可以满足探索性数据分析的需求但 Hive 速度较慢Spark Sql 对内存资源要求很高多并发下出现资源瓶颈问题并且SparkSQL的代码维护成本相对高impala基于内存计算内存消耗严重。如果应用的场景是数据来源固定但是查询不固定且要求速度时就需要寻求新的技术解决。 总结以上两大问题目前OLAPOn-Line Analytical Processing联机分析处理的特点是 数据量大并且要求查询速度快时计算时间成本高。OLAP数据分析使用SparkSQL速度快但内存需求大代码维护成本高impala消耗内存大采用固定化报表方式无法应对查询需求不定、多样的分析需求。四、​​​​​​​什么是Kylin以及Kylin的架构原理 Apache Kylin™是一个开源的、分布式的分析型数据仓库提供Hadoop/Spark 之上的 SQL 查询接口及多维分析OLAP能力以支持超大规模数据最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。Apache Kylin令使用者仅需三步即可实现超大数据集上的亚秒级查询 定义数据集上的一个星形或雪花形模型在定义的数据表上构建cube使用标准SQL通过ODBC、JDBC或RESTFUL API进行查询仅需亚秒级响应时间即可获得查询结果。Kylin数据处理原理及架构原理 kylin的核心思想是预计算kylin对多维分析可能用到的度量进行预计算将高维复杂的聚合计算多表连接等操作转换成预计算结果将计算好的结果保存成cube存储于Hbase中供查询时直接访问。预计算过程需要很长时间但是一旦结果计算出来再次查询只是获取结果集合的过程不需要额外再次浪费集群资源进行长时间查询这种以空间换取时间的处理数据模式决定了Kylin拥有很好的快速查询、高并发能力。 Kylin是一个MOLAP多维联机数据分析系统最常用的是将Hive中的数据进行预计算利用Hadoop的Mapreduce或者Spark分布式计算框架来实现。Kylin获取的数据表是星型数据结构的目前建模时只支持一张事实表多张维度表假设业务需求比较复杂可以考虑在Hive中进行预处理生成一张宽表来处理。 对于Hive中的维度表和事实表根据我们指定的维度列来构建cubecube是所有维度的组合任一维度的组合称为cuboid即cube中包含所有的cuboid。理论上来说一个N维的cube会有2的N次方种维度组合cuboid。举例假设一个cube包含time、country、city、location四个维度那么就有16中cuboid组合。通过计算框架的计算将OLAP分析的cube数据存储在Hbase中方便后期实现多维数据集的交互式快速查询。 上图中是Kylin整体架构原理图其中 REST Server提供Restful接口可以通过此接口来创建、构建、刷新、合并Cube等相关操作。同时也可以通过Restful接口实现SQL查询。 Query Engine目前Kylin使用开源的Calcite框架来实现SQL解析用户发出SQL查询之后可以通过Query Engine来将SQL Query语句转换成SQL语法树也就是逻辑计划。 Routing负责将解析SQL生成的执行计划转换成cube缓存的查询cube是通过预计算缓存在Hbase中这部分查询时可以在秒级甚至是毫秒级完成除此之外还有一些操作需要使用原始数据存储在HDFS上通过Hive查询这部分查询的延迟比较高。 MetadataKylin中有大量的元数据信息包括cube的定义、星型模型的定义、job和执行job的输出信息、模型的维度信息等等。Kylin的元数据存储在Hbase中存储的格式是Json字符串。 Cube Build Engine立方体构建模块是所有模块的基础主要负责Kylin预计算中创建cube创建的过程是首先通过Hive读取原始数据然后通过MR或者Spark计算生成Htable最后将数据加载到Hbase表中。 博客主页https://lansonli.blog.csdn.net欢迎点赞 收藏 ⭐留言 如有错误敬请指正本文由 Lansonli 原创首发于 CSDN博客停下休息的时候不要忘了别人还在奔跑希望大家抓紧时间学习全力奔赴更美好的生活✨
http://www.hkea.cn/news/14304955/

相关文章:

  • 做网站得多少钱网站推广积分
  • 优秀企业网站欣赏关于申请开通网站建设的请示
  • 得力企业网站建设个人网站备案可以做博客吗
  • 网站到处仿seo的中文意思是什么
  • 重庆渝中区企业网站建设哪家好农村建设房子建设网站建设
  • 3D特效做首页的网站ainihejian wordpress
  • 四川网站seo软件平台有哪些
  • 网站推广的10种方法如何修改wordpress主题模板
  • 怎么用网站推广企业网站建设一条龙全包
  • 没有网站做推广深圳极速网站建设服务
  • 论坛网站建设需要多少钱做360手机网站首页
  • html模板 网站heliohost wordpress
  • php网站分类目录源码湖南中维电力建设有限公司网站
  • 做域名后就得做网站吗wordpress 访客记录
  • 深圳集团网站开发公司石家庄建行网站
  • 西宁 专业网站建设网站集约化平台建设分析
  • 专业企业网站开发建设项目验收 网站
  • 虹口上海网站建设网站建设运行问题及建议
  • 网站域名重定向怎么做wordpress域名自动重复
  • 哈尔滨搜索引擎建站网站设计论文前言
  • 网站一年的维护费用开发微信公众号公司
  • 有哪些网站是静态网站小红书seo排名优化
  • 佛山市专注网站建设报价下载建行手机银行官方正式版
  • 比较好的建站网站网络推广方案微xiala11
  • 如何建立自己的网站?找兼职h5网站开发人员
  • 做网站最简单的方法上海app开发推荐中伟科
  • 淮安做网站的有多少钱凡客诚品衬衫
  • 网站开发 财务自由wordpress搜索收录
  • 网站推广方案中确定目标是指网站建设的未来
  • net网络网站建设烟台装修公司网站建设