当前位置: 首页 > news >正文

在线公司取名seo百度网站排名软件

在线公司取名,seo百度网站排名软件,西部数码里面如何建设自己的网站,衡阳市城乡建设协会官方网站一、背景#xff1a; 用户经常会针对数据存在质量的存疑#xff0c;反馈数据不准。开发人员排查数据质量问题步骤#xff1a;首先和业务人员对接了解是哪里数据不准确#xff0c;要定位是哪张报表#xff0c;然后查看报表后面数据来源#xff0c;然后一路排查数仓。往往定…一、背景 用户经常会针对数据存在质量的存疑反馈数据不准。开发人员排查数据质量问题步骤首先和业务人员对接了解是哪里数据不准确要定位是哪张报表然后查看报表后面数据来源然后一路排查数仓。往往定位到数据问题耗时比较高开发断层导致找到相关任务比较难。 二、解决办法 通过血缘解析把报表数据来源去向的信息都提取出来方便开发人员迅速找到相关任务。 三、解决思路 Kettle的转换和作业存储底层是通过xml实现。作业是由转换组成转换由组件组成。可以通过解析xml找到来源表和去向表。帆软Finereport的报表cpt和 frm底层存储也是xml可以解析xml获取数据集解析sql获取到表和字段。最终得到报表名报表路径数据库表数据集。 tips:还可以进一步解析作业调度主流调度工具crontabairflow,azkanban,ooize可以解析出作业调度信息。 四、具体实现 4.1.Kettle血缘 首先要找到输入输出组件一般输入组件包含如图 4-1所示输出如图 4-2所示(实际转换中还可能使用追加流或者SQL脚本这里只说常见的) 。一般Kettle转换(输入输出组件不同找到来源和目标方式不同)如图 4-3 所示。我们以文本编辑器打开转换文件Ktr,会以图 4-4 所示 。 如果内容比较乱可以找一个xml解析工具格式化一下。可以清晰的看到转换是存在step节点里如图 4-5所示。根据里面的type找到输入和输出组件。然后输入如果是表输入通过sql查询的用sql parser解析获取到表和字段信息。数据连接是存在connection节点里(这里如果数据以JNDI的方式存储的需要解析JNDI文件获取到数据配置信息)如图 4-6所示可以获取到数据库信息。组件连接信息是在order节点里面(这里比较复杂是要考虑数据分发和数据复制)。这样一个完整的转换解析就完成。作业同理。一般作业和转换是发布在服务器上需要遍历服务器目录下所有的以ktr和kjb结尾文件。 图 4-1 图 4-2 图 4-3 图 4-4 图 4-5 图 4-6 4.2 FIneReport血缘 FineReport报表存储文件是以cpt和frm结尾以文本编辑器打开如图 4-7所示。可以找到数据集是存在TableData节点下可以拿到查询的sql然后用sql parser解析获取到表和字段在DatabaseName里面可以拿到数据连接名这里可以在帆软内置库中找到数据连接名的具体链接信息用于打通和Kettle之间的联系。 图4-7 图 4-8 4.3 调度解析 调度工具比较多这里讲一下Crontab和Airflow。Crontab一般会可以通过crontab -l 命令获取调度的信息。解析信息可以拿到作业的计划调度时间(更深一层可以考虑获取作业执行日志拿到实际调度时间。然后针对调度进行运营管理)。Airflow由内置数据库可以获取到作业和调度信息然后去找到作业文件找到具体的作业(这里不过多介绍Airflow只讲一下思路)。 五、实现效果 以上所有数据和获取到进行加工处理。最终展示如表 4-1所示 表 4-1 来源层   来源表  来源字段目标层目标表目标字段作业名计划调度实际调度SAPKNALfleld1ODSods_sap_knalfleld2job1* * * * 8* * * * 8ODSods_sap_knalfleld2DWDdwd_custom_detdfleld3job2* * * * 10* * * * 10DWDdwd_custom_detdfleld3DWSdws_custom_detdfleld4job3* * * * 11* * * * 11DWSdws_custom_detdfleld4FRcustom.cptfleld5* * * * 12* * * * 12 以上列表只是参考实际有很多复杂情况。 关于上表每行解释 来源层这个数据一般是系统名和数仓名。这里数仓名一般是通过解析表明获取到。可以参考数仓规范(一般数仓运营会将弄作业监控命名规范)。来源表这个是上面解析sql或者转换解析获取到(在输出规范一般要要求表名规范)来源字段同上(实际数仓运营会拿到字段里数据长度和字段类型以及长度进行管理)目标层同来源层目标表同来源表目标组队那同来源字段计划调度时间这里要考虑作业会存在多个调度频率一般会存多行在实际展示会根据crontab解析给出未来十个调度时间(如每天八点更新这里就会给出后面十天八点的时间)实际调度时间这里获取方式比较多一种通过日志解析还有可以在作业执行的时候将时间写入到数据库但是这种作业失败就拿不到数据所以通常会解析日常还可以监控作业执行情况。(一般有能力的会由作业监控平台) 图形展示(os自己用的d3.js做出来效果不如这个所以不放实际效果图了)如下鼠标移动到线条可以看到作业名和调度时间。 五、扩展 这里讲的是传统数仓传统数仓一般没有血缘所以数据发生质量问题排查比较耗时。现在数据中台基本由数据血缘功能大部分基于Atlas。但是如果存在临时表就会存在血缘中断。还有是通过解析sql,但是这种缺点是要找到所有任务。这两个都无法获取到所有的数据血缘所以有的产品会有血缘录入的功能进行补充。 上面只讲了帆软FineReport帆软还有FineBI在FineBI里是有血缘的如果要做整体的管理可以考虑将FineBI的数据获取到和所有的血缘进行融合。 以上只是个人在工作中针对传统数仓的数据治理的一些实践。其实还有很多ETL工具如DataStage、Informatica、Airflow、Datax等等之类的可以根据以上逻辑进行血缘解析。
http://www.hkea.cn/news/14434066/

相关文章:

  • 地方网站做相亲赢利点在哪里帝国cms灵动标签做网站地图
  • html5单页面网站建设wordpress 产品缩略图
  • 旅游网站系统wordpress厚街手机网站建设
  • 高要区公路建设规划局网站弓长岭网站建设
  • 淘宝联盟交钱建设网站最好的网站排名优化工作室
  • 用vs2012做简单网站深圳专业建设网站
  • 建设银行可以查房贷的网站珠江新城越秀金融大厦
  • 西安网站建设云阔怎么用思维导图做网站结构图
  • 自助模块化网站建设成都铁路局贵阳建设指挥部网站
  • 公司网站怎么修改内容长沙网站建设价
  • 合肥电脑网站建站wordpress 图片墙
  • 如何在淘宝上接单网站建设做任务赚佣金一单10块
  • 网站模块桐梓县工程建设交易网站
  • 网站模板被抄袭怎么办沈阳城市建设学院官方网站
  • 南宁好的网站建设公司建行信用卡网站官网入口
  • 网站备案程序盐城集团网站建设
  • 织梦网站去除技术支持在线定制网站官网
  • 重庆网站制作如意影院
  • 郑州网站排名优化公司投资公司取名
  • 龙口网站建设哪家好新手学做网站看什么书
  • 小说网站怎么做原创专门做二手手机的网站
  • 网站制作视频教程大全淘宝手机版网页
  • 百姓网站外推广怎么做网站开发的相关语言有哪些
  • 做pc端网站要多少钱国家商标局
  • 电子商务网站的实施包括哪些步骤广告设计图片 海报
  • 做网站现在好弄么动漫制作专业个人简历
  • 做任务的网站asp sql网站安全性
  • 如何让网站被百度收录已有域名怎么做网站
  • 权威网站营销推广活动策划
  • 宿州网站制作建设设计科技公司官网