当前位置：首页 > news >正文

捕鱼网站怎么做网站开发一个人可以完成吗

news 2026/4/15 8:38:34

捕鱼网站怎么做,网站开发一个人可以完成吗,免费设计房屋装修软件,新开传奇网站曾劲松一.MapReduce 1.1定义#xff1a;是一个分布式运算程序的编程框架 1.2核心功能#xff1a;将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序#xff0c;并发运行在一个Hadoop集群上。 1.3优点 1#xff09;易于编程它简单的实现一些接口#…一.MapReduce 1.1定义是一个分布式运算程序的编程框架 1.2核心功能将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序并发运行在一个Hadoop集群上。 1.3优点 1易于编程它简单的实现一些接口就可以完成一个分布式程序这个分布式程序可以分布到大量廉价的PC机器上运行正是因为这个特点使MapReduce编程变得非常流行 2良好扩展性可以通过简单地增加机器来扩展它的计算能力。 3高容错性 MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上这就要求它具有很高的容错性。比如其中一台机器挂了它可以把上面的计算任务转移到另外一个节点上运行不至于这个任务运行失败而且这个过程不需要人工参与而完全是由Hadoop内部完成的。 4适合PB级以上海量数据地离线处理可以实现上千台服务器集群并发工作提供数据处理能力。 1.4缺点 1不擅长实时计算无法像MySQL一样在毫秒或者秒级内返回结果 2不擅长流式计算流式计算的输入数据是动态的而MapReduce的输入数据集是静态的不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。 3不擅长有向无环图计算每个MapReduce作业的输出结果都会写入到磁盘会造成大量的磁盘IO导致性能非常的低下。 1.5MapReduce核心思想 1分布式的运算程序往往需要分成至少2个阶段。 2第一个阶段的MapTask并发实例完全并行运行互不相干。 3第二个阶段的ReduceTask并发实例互不相干但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。 4MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段如果用户的业务逻辑非常复杂那就只能多个MapReduce程序串行运行。总结分析WordCount数据流走向深入理解MapReduce核心思想。 1.6 MapReduce进程一个完整的MapReduce程序在分布式运行时有三类实例进程 1MrAppMaster负责整个程序的过程调度及状态协调。 2MapTask负责Map阶段的整个数据处理流程。 3ReduceTask负责Reduce阶段的整个数据处理流程。 1.7常用数据反序列类型 1.8 编程规范编写程序可分为Mapper、Reducer和Driver三部分。 Mapper阶段 1自定义的Mapper要继承自己的父类 2Mapper的业务逻辑写在map方法中 3Mapper的输入、输出数据是K-V对的形式 4map方法Map Task进程对每一个k-V调用一次 Reducer阶段 1自定义的Reduce要继承自己的父类 2业务逻辑写在reduce方法中 3Reduce的输入数据类型对应Mapper的输出数据类型 4ReduceTask进程对每一组相同k的k,v组调用一次reduce()方法 Driver阶段相当于YARN集群的客户端用于提交我们整个程序到YARN集群提交的是封装了MapReduce程序相关运行参数的job对象。二、Hadoop序列化 2.1 序列化和反序列化序列化就是把内存中的对象转换成字节序列或其他数据传输协议以便于存储到磁盘持久化和网络传输。反序列化就是将收到字节序列或其他数据传输协议或者是磁盘的持久化数据转换成内存中的对象。 2.2为何不使用Java的序列化 Java的序列化是一个重量级序列化框架Serializable一个对象被序列化后会附带很多额外的信息各种校验信息Header继承体系等不便于在网络中高效传输。 2.3 Hadoop序列化的特点 1紧凑高效使用存储空间 2快速读写数据的额外开销小 3互操作支持多语言的交互 2.4 实现bean对象序列化 1必须实现Writable接口FlowBean继承Writable接口 2反序列化时需要反射调用空参构造函数所以必须有空参构造 public FlowBean() { super(); } 3重写序列化方法 Override public void write(DataOutput out) throws IOException { out.writeLong(upFlow); out.writeLong(downFlow); out.writeLong(sumFlow); } 4重写反序列化方法 Override public void readFields(DataInput in) throws IOException { upFlow in.readLong(); downFlow in.readLong(); sumFlow in.readLong(); } 5反序列化的顺序和序列化的顺序相同 6要想把结果显示在文件中需要重写toString()可用\t分开方便后续用。 7如果需要将自定义的bean放在key中传输则还需要实现Comparable接口因为MapReduce框中的Shuffle过程要求对key必须能排序。 Override public int compareTo(FlowBean o) { //设置从大到小排序 return this.sumFlow o.getSumFlow() ? -1 : 1; } 3.InputFormat数据输入 3.1 MapTask并行度决定机制数据块Block是HDFS物理上把数据分成一块一块。数据块是HDFS存储数据单位。数据切片数据切片只是在逻辑上对输入进行分片并不会在磁盘上将其切分成片进行存储。数据切片是MapReduce程序计算输入数据的单位一个切片会对应启动一个MapTask。

查看全文

http://www.hkea.cn/news/14272322/