最佳外贸建站平台,网站开发需要学数学吗,正方教务管理系统入口,招聘网官方网站Loader简介
什么是Loader#xff1a;
Loader是实现FusionInsight HD与关系型数据库、文件系统之间交互数据和文件的数据加载工具。基于开源Sqoop研发#xff0c;做了大量优化和扩展。提供可视化向导式的作业配置管理界面#xff1b;提供定时调度任务#xff0c;周期性执行…Loader简介
什么是Loader
Loader是实现FusionInsight HD与关系型数据库、文件系统之间交互数据和文件的数据加载工具。基于开源Sqoop研发做了大量优化和扩展。提供可视化向导式的作业配置管理界面提供定时调度任务周期性执行Loader作业在界面中可指定多种不同的数据源、配置数据的清洗和转换步骤、配置集群存储系统等。
Loader的特点
图形化提供图形化配置、监控界面操作简便。高性能利用MapReduce并行处理数据。高可靠Loader Server采用主备双机作业通过MapReduce执行支持失败重试作业失败后不会残留数据。安全Kerberos认证作业权限管理。
Loader的应用场景 图Loader的应用场景 通过Loader我们可以从关系型数据库或文件系统中把数据导入HBase或者HiveHDFS中。反过来Loader也可以从HDFS和HBase、Hive中导出数据。
Loader在FusionInsight产品中的位置 图Loader在FusionInsight中的位置 FusionInsight HD提供大数据处理环境基于社区开源软件增强安装场景选择业界最佳实践Porter是FusionInsight HD的数据集成服务提供与Hadoop集群多种交换数据方式包括LoaderFlumeSFTP及Hadoop图形界面Hue。
Loader是实现FusionInsight HD与关系型数据库、文件系统之间交换数据和文件的数据加载工具。
Loader系统架构
Loader模块架构 图Loader模块架构图 模块说明
名称描述Loader ClientLoader的客户端包括WebUI和CLI两种交互界面。Loader ServerLoader的服务端主要功能包括处理客户端请求管理连接器和元数据提交MapReduce作业和监控MapReduce作业状态等。REST API实现RESTfulHTTPJSON接口处理来自客户端的请求。Job Scheduler简单的作业调度模块支持周期ing的执行Loader作业。Transform Engine数据转换处理引擎支持字段合并、字符串剪切、字符串反序等。Execution EngineLoader作业执行引擎包含MapReduce作业的详细处理逻辑。Submission EngineLoader作业提交引擎支持将作业提交给MapReduce执行。Job Manager管理Loader作业包括创建作业、查询作业、更新作业、删除作业、激活作业、去激活作业、启动作业、停止作业。Metadata Repository元数据仓库存储和管理Loader的连接器、转换步骤、作业等数据。HA Manager管理Loader Server进程的主备状态Loader Server包含2个节点以主备方式部署。
Loader作业管理
作业
作业用来描述将数据从数据源经过抽取、转换和加载至目的端的过程。包括数据源位置及数据源属性、从源数据到目标数据的转换规则、目标端属性。
Loader提供了诸多功能用于管理与作业相关的操作。包括创建作业、导入作业、导出作业、迁移作业分组、批量删除作业、启动作业、停止作业、查看作业历史记录、复制作业和删除指定作业等功能。 脏数据是指不符和Loader转换规则的数据。 作业转换规则
Loader提供了丰富的作用转换规则能将数据按照不同的业务场景进行转换和清洗转换成目标数据结构实际应用中如果不需要转换可以不指定转换规则。
Loader提供了14中转换算子描述如下
长整型时间转换实现长整型数值与日期类型的互换。空值转换将空值替换成指定值。增加常量字段生成常量字段。随机值转换生成羧基数据字段。拼接转换拼接已有字段生成新字段。分割转换将已有字段按指定分隔符分割出新字段。取模转换对已有字段取模生成新字段。剪切字符串通过指定起止位置截取已有字符串类型的字段生成新字段。EL操作转换指定算法对字段值进行运算目前支持的算法有MD5sum、sha1sum、sha256sum和sha512sum等。字符串大小写转换对已有的字符串类型字典切换大小写生成新字段。字符串逆序转换对已有的字符串类型字段做逆序变换生成新字段。字符串空格清除转换对已有的字符串类型字段清除左右空格生成新字段。过滤行转换配置逻辑条件过滤掉含触发条件的行。更新域当满足某些条件时更新字段的值。
客户端脚本介绍
Loader除了提供图形化操作界面外还体用了一套完整的shell脚本通过这些脚本可实现数据源的增删查改作业的增删查改、启动作业、停止作业查看作业状态判断作业是否正在运行等功能。
脚本介绍如下
lt-ctl简称作业控制工具用于查询作业状态、启动作业停止作业以及判断作业是否在运行中。lt-ucj简称作业管理工具用于查询、创建、修改和删除作业。lt-ucc简称数据源管理工具用于查询、创建、修改和删除数据源连接信息。 以上内容为听华为大数据培训课程和大学MOOC上厦门大学 林子雨的《大数据技术原理与应用》课程而整理的笔记。 大数据技术原理与应用 https://www.icourse163.org/course/XMU-1002335004