当前位置: 首页 > news >正文

东莞做网站电话怎么做打码网站

东莞做网站电话,怎么做打码网站,微信属于营销型网站,网站网页主页的区别MapTask工作机制 MapReduce中的Map任务是整个计算过程的第一阶段#xff0c;其主要工作是将输入数据分片并进行处理#xff0c;生成中间键值对#xff0c;为后续的Shuffle和Sort阶段做准备。 1. 输入数据的划分#xff1a; 输入数据通常存储在分布式文件系统#xff08;…MapTask工作机制 MapReduce中的Map任务是整个计算过程的第一阶段其主要工作是将输入数据分片并进行处理生成中间键值对为后续的Shuffle和Sort阶段做准备。 1. 输入数据的划分 输入数据通常存储在分布式文件系统如HDFS中由InputFormat负责将输入数据划分成若干个InputSplit每个InputSplit对应一个Mapper任务的输入。输入数据被划分成多个InputSplit的目的是为了充分利用集群中的计算资源并实现数据的并行处理。 2. Map任务的启动 一旦MapReduce作业被提交Master节点JobTracker会将Map任务分配给空闲的Map任务槽Task Slot。每个Map任务槽都运行在集群中的某个节点上并且能够处理一个或多个Mapper任务。 3. Mapper的初始化 当Map任务被分配到一个节点上时该节点会启动一个Mapper实例。Mapper实例会首先执行初始化操作包括获取输入数据的位置信息、加载用户自定义的Map函数等。 4. 数据处理 Mapper开始处理其对应的InputSplit中的数据。对于每个输入记录Mapper会调用用户定义的Map函数该函数将输入记录转换成若干个中间键值对key-value pairs。这些中间键值对通常表示了对输入数据的处理结果比如单词计数问题中键可以是单词值可以是该单词出现的次数。 在Map任务中为了提高处理速度和效率通常会采取一些数据处理优化策略比如 数据局部性优化尽可能在处理数据时减少网络通信开销使得处理同一输入分片的数据的Mapper任务能够在同一个节点上执行以减少数据的传输成本。 流水线处理Map任务可以通过流水线处理来提高吞吐量即在处理一个输入记录的同时可以开始处理下一个输入记录从而减少处理过程中的等待时间。 5. 中间结果的缓存 Map任务通常会将中间结果缓存在内存中但如果缓存空间不足以存储所有的中间结果时会采取一些策略来管理缓存例如 溢出到磁盘当内存中的中间结果达到一定阈值时比如默认的80%Map任务会将部分中间结果写入磁盘的临时文件中以释放内存空间从而继续处理新的输入记录。 内存管理算法Map任务可能采用LRU最近最少使用等算法来管理内存中的中间结果保留最常使用的数据释放不常用的数据。 在 Map 阶段完成后中间结果会被写入本地磁盘但在写入之前通常会进行本地排序操作。 本地排序可以确保相同 key 的数据在同一个位置以便后续的 Shuffle 阶段更高效地进行数据传输和处理。 在必要时还可以对数据进行合并和压缩操作以减少存储空间和提高数据传输效率。这些步骤都是为了优化整个 MapReduce 作业的性能和效率。 6. 任务状态更新 在Map任务执行期间Master节点会周期性地接收来自Map任务的心跳信息以报告任务的运行状态并定期更新任务进度。 如果Map任务长时间没有发送心跳信息Master节点可能会将其标记为失败并重新分配任务给其他节点执行。 Map任务在执行完所有的输入记录后会向Master节点报告任务完成并将生成的中间结果的位置信息发送给Master。 MapReduce框架具有强大的容错机制即使Map任务在执行过程中出现失败Master节点也能够重新分配任务并继续执行以确保作业的顺利完成。 7. Map任务的结束 当所有数据处理完成后MapTask 对所有临时文件进行一次合并以确保最终只会生成一个数据文件。 当所有数据处理完后MapTask 会将所有临时文件合并成一个大文件并保存到文件output/file.out 中同时生成相应的索引文件output/file.out.index。 在进行文件合并过程中MapTask以分区为单位进行合并。对于某个分区它将采用多轮递归合并的方式。每轮合并mapreduce.task.io.sort.factor默认 10个文件并将产生的文件重新加入待合并列表中对文件排序后重复以上过程直到最终得到一个大文件。 让每个 MapTask 最终只生成一个数据文件可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。 一旦所有的输入记录都被处理完毕并且中间结果都被写入磁盘Map任务就会结束。 Map任务会将最终的中间结果的位置信息发送给Master节点以便后续的Shuffle和Sort阶段能够获取到这些数据。 8.示例 假设我们有一个大的文本文件其中包含了多篇文章每篇文章之间由一个或多个空行分隔。Map任务的目标是将输入数据中的每个单词映射成键值对单词, 1以便后续的Reduce任务可以统计每个单词的频次。 1 输入数据的划分 在Hadoop中这个文本文件被分成若干个逻辑块block每个逻辑块会被存储在HDFS的不同节点上。当我们提交MapReduce作业时Hadoop会将这些逻辑块划分成若干个InputSplit每个InputSplit对应一个Mapper任务的输入。 2 Map任务的启动 一旦MapReduce作业被提交Master节点会启动作业的第一个阶段即Map阶段。Master节点会根据集群中的可用资源情况将Map任务分配给空闲的节点上的Map任务槽。 3 Mapper的初始化 每个Mapper任务在运行之前都需要进行初始化。这个初始化过程包括获取对应的InputSplit的数据位置信息、加载用户自定义的Map函数等。 在我们的例子中Map函数需要额外的逻辑来识别文章的标题。 4 数据处理 Mapper开始处理其对应的InputSplit中的数据。对于每个InputSplitMapper会逐行读取数据。在我们的例子中Mapper会识别每篇文章的标题并为每篇文章的每个单词生成键值对。对于每个键值对键是单词值是1表示该单词在文章中出现了一次。 5 中间结果的缓存 Mapper会将生成的中间键值对缓存在内存中。当内存中的数据达到一定阈值时部分结果会被写入磁盘的临时文件中以释放内存空间。在我们的例子中中间结果包括文章标题和单词出现次数的键值对。 6任务状态更新 在Map任务执行期间Mapper会定期向Master节点发送心跳信息以报告任务的运行状态和进度。Master节点会根据这些信息来监控任务的执行情况并在必要时重新分配任务。 7 Map任务的结束 当Mapper处理完其对应的InputSplit中的所有数据并且中间结果都被写入磁盘后Map任务结束。Mapper会将最终的中间结果的位置信息发送给Master节点以便后续的Shuffle和Sort阶段能够获取到这些数据。 通过Map任务的执行我们得到了每篇文章中单词的频次统计结果并且识别出了每篇文章的标题。这些中间结果将被用于后续的Shuffle和Sort阶段最终得到我们想要的每篇文章中单词的频次统计结果。
http://www.hkea.cn/news/14299637/

相关文章:

  • 如何做电商网站 昆明aspcms分类信息网站
  • 网站建设ftp软件asp的网站空间
  • 网站域名已经被绑定想接网站自己做
  • 无锡制作网站价格表百度权重批量查询
  • 建设介绍网站网站建设的空间指的是
  • 网站icp备案代理青岛微网站建设
  • 班级网站建设活动方案海东高端网站建设
  • 医药类网站建设评价工程房地产行业一条龙网站
  • 网站开发亮点中小型网站建设哪家好
  • 网站 建设在作用是什么分页网站
  • 建站宝盒站群版高端网站建设哪家公司好
  • 做淘宝要用到哪些网站确诊病例最新消息
  • 大型网站建设就找兴田德润网站开发学哪种语言
  • 网站运营工作计划别墅设计 网站模板
  • 沈阳网站的优化成都网络推广哪家好
  • 做的好的招投标网站注册推广赚钱一个30元
  • 建设ftp网站的安全性宣传片制作标准参数
  • 清理网站数据库在线做简历的网站
  • 做二手平台公益的网站无锡网站建设制作公司
  • 那个网站可以找人做设计师泉州网站建设优化公司
  • 高端网站设计收费顺德网站制作案例信息
  • 网站推广途径和推广要点有哪些?百度推送 wordpress
  • 在百度做橱柜网站网页微信二维码付款怎么弄
  • app 网站开发团队人员配置wordpress安装到网站
  • 求免费网站能看的2021宁国网站建设
  • php网站开发程序填空题正能量成年入口
  • 福州建设人才市场网站网站建设教程出售用苏州久远网络
  • 建立网站的数据表百度推广怎么做最好
  • 购物便宜的网站有哪些网站建设开发计划书
  • 校园网上超市网站建设战略规划云服务器优惠活动