当前位置: 首页 > news >正文

网站制作网站开发公司行政负责做网站吗

网站制作网站开发,公司行政负责做网站吗,百度代理服务器,什么是静态网页文章目录 一、实战概述二、提出任务三、完成任务#xff08;一#xff09;准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录 #xff08;二#xff09;实现步骤1、启动Hive Metastore服务2、启动Hive客户端3、基于HDFS数据文件创建Hive外部表4、利用Hive SQL实… 文章目录 一、实战概述二、提出任务三、完成任务一准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录 二实现步骤1、启动Hive Metastore服务2、启动Hive客户端3、基于HDFS数据文件创建Hive外部表4、利用Hive SQL实现去重5、检查是否实现去重 四、实战总结 一、实战概述 在本次实战任务中我们利用Hive大数据处理框架对三个文本文件ips01.txt、ips02.txt、ips03.txt中的IP地址进行了整合与去重。首先在虚拟机上创建了这三个文本文件并将它们上传至HDFS的/deduplicate/input目录下作为原始数据源。接着启动了Hive Metastore服务和客户端以管理和访问元数据信息。 通过Hive SQL语句创建了一个外部表ips该表的每一行存储一个IP地址字段间采用换行符\n进行分隔这样便能正确读取到HDFS上的原始IP列表数据。为了实现去重目标进一步创建了新的内部表deduplicated_ips并使用DISTINCT关键字从ips表中提取出不重复的IP地址记录。 最后执行SQL查询语句查看deduplicated_ips表的内容如果输出结果中不存在重复IP则表示去重过程顺利完成。整个过程展示了Hive在处理大规模文本数据时能够高效地进行数据加载、表结构定义、数据清洗以及数据去重等操作充分体现了其在大数据处理领域的强大功能与便捷性。 二、提出任务 三个包含了网址的文本文件ips01.txt、ips02.txt、ips03.txtips01.txt 192.168.1.1 172.16.0.1 10.0.0.1 192.168.1.2 192.168.1.3 172.16.0.2 10.0.0.2 192.168.1.1 172.16.0.1 10.0.0.3ips02.txt 192.168.1.4 172.16.0.3 10.0.0.4 192.168.1.5 192.168.2.1 172.16.0.4 10.0.1.1 192.168.1.1 172.16.0.1 10.0.0.1 ips03.txt 192.168.1.6 172.16.1.1 10.0.2.1 192.168.1.7 192.168.3.1 172.16.0.5 10.0.0.5 192.168.1.1 172.16.0.1 10.0.0.3使用Hive框架实现网址去重 三、完成任务 一准备数据 1、在虚拟机上创建文本文件 在master虚拟机上使用文本编辑器创建三个文件ips01.txt, ips02.txt, ips03.txt并确保每个文件内存储的是纯文本格式的IP地址列表。 2、上传文件到HDFS指定目录 在master虚拟机上创建HDFS上的/deduplicate/input目录用于存放待处理的原始数据文件。执行命令hdfs dfs -mkdir -p /deduplicate/input 将本地创建的三个文本文件上传至HDFS的/deduplicate/input目录hdfs dfs -put ips01.txt /deduplicate/input/ hdfs dfs -put ips02.txt /deduplicate/input/ hdfs dfs -put ips03.txt /deduplicate/input/执行上述命令 二实现步骤 1、启动Hive Metastore服务 执行命令hive --service metastore 在后台启动metastore服务 2、启动Hive客户端 执行命令hive看到命令提示符hive 3、基于HDFS数据文件创建Hive外部表 基于HDFS数据文件创建Hive外部表执行语句CREATE EXTERNAL TABLE ips (ip STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY \n LOCATION /deduplicate/input;这里创建了一个名为ips的外部表字段为单列ip每一行代表一个IP地址。由于我们的数据文件中每个IP地址占一行所以字段间用换行符\n分隔。 4、利用Hive SQL实现去重 基于查询结果创建新表CREATE TABLE deduplicated_ips AS SELECT DISTINCT ip FROM ips;通过上述SQL语句我们在Hive内部创建了一个新的表deduplicated_ips其中存储了从unique_ips表中提取的所有不重复的IP地址。 5、检查是否实现去重 最后检查deduplicated_ips表的内容以确认去重是否成功执行执行语句SELECT * FROM deduplicated_ips; 若输出结果中没有重复的IP地址则说明去重任务已经顺利完成。 四、实战总结 本实战通过Hive对三个文本文件中的IP地址数据进行整合去重。首先在虚拟机创建并上传文本至HDFS接着启动Hive服务与客户端创建外部表加载数据并用DISTINCT从原始表中提取不重复IP至新内部表最终成功实现去重目标展示了Hive处理大规模文本数据的高效能与便捷性。
http://www.hkea.cn/news/14281998/

相关文章:

  • wordpress 移动站drupal wordpress joomla
  • 网站开发和前端和数据媒体河北综合网站建设系列
  • 做ppt音乐模板下载网站做网站首页的软件
  • 学校网站登录入口网站开发职能
  • 网站建设题库搜索引擎优化seo优惠
  • 中国建设银行行网站采购与招标网
  • 龙信建设集团网站成都网站asp access源码购买修改
  • 口碑好的网站开发苏州网站维护
  • 网站维护html模板微信加精准客源软件
  • 网站后台ftp在哪开源crm
  • 南通网站定制方案公司取名网免费版
  • wordpress悬浮窗插件网站优化设计方案
  • 嘉兴企业网站开发高档网站建设公司
  • 宁波好品质品牌网站设计哪家好电脑微信公众号登录入口
  • 辽源网站建设设计h5网站开发培训哪里好
  • 怎么注册微网站吗虚拟主机评测
  • 机械设备网站建设福州阳楠科技网站建设有限公司
  • 做国际网站每年要多少钱网页视频提取软件
  • 好买卖做网站阿里云卸载wordpress
  • 做一个电商网站多少钱中展建设股份有限公司网站
  • 求个网站20213d建模软件有哪些
  • 企业建站做网站路由器组网怎么设置
  • 网络营销站点页面设计原则富阳网站建设怎样
  • 网站功能建设与栏目划分免费国内ip
  • 创建网站 优帮云地方网站做哪些内容
  • 官方网站开发用什么语言太原网站制作多少钱
  • 猎奇网站源码网站排名软件下载
  • 济南的企业网站手机网站怎么做SEO优化
  • 2小时wordpress建站鸿星尔克网络营销
  • ftp修改网站内蒙古住房和城乡建设部网站