专业的常州做网站,接工程网站,做爰全过程免费的视频网站爱,博兴网站建设HDFS Disk Balancer 背景产生的问题以及解决方法 hdfs disk balancer简介HDFS Disk Balancer功能数据传播报告 HDFS Disk Balancer开启相关命令 背景
相比较于个人PC#xff0c;服务器一般可以通过挂载多块磁盘来扩大单机的存储能力在Hadoop HDFS中#xff0c;DataNode负责最… HDFS Disk Balancer 背景产生的问题以及解决方法 hdfs disk balancer简介HDFS Disk Balancer功能数据传播报告 HDFS Disk Balancer开启相关命令 背景
相比较于个人PC服务器一般可以通过挂载多块磁盘来扩大单机的存储能力在Hadoop HDFS中DataNode负责最终数据block的存储在所在机器上的磁盘之间分配数据块。当写入新block时DataNodes将根据选择策略循环策略或可用空间策略来选择block的磁盘卷循环策略它将新的block均匀分布在可用磁盘上可用空间策略此策略将数据写入具有更多可用空间按百分比的磁盘
产生的问题以及解决方法
在长期运行的集群中采用循环策略的时DataNode有时会不均匀的填充其存储目录磁盘/卷从而导致某些磁盘已满而其他磁盘却很少使用的情况。发生这种情况的原因可能是由于大量的写入和删除操作也可能是由于更换了磁盘。另外如果我们使用基于可用空间选择策略则每个新写入将进入新添加的空磁盘从而使该期间的其他磁盘处于空闲状态这将在新磁盘上创建瓶颈。因此需要一种INTRA DATANODE BALANCINGDataNode内数据块的均匀分布来解决intra-DataNode偏斜在磁盘上块的不均匀分布这种偏斜是由于磁盘更换或随机写入和删除发生的。因此hadoop3.0中引入了一个名为disk balancer的工具该工具专注于在DataNode内分发数据
hdfs disk balancer简介
hdfs disk balancer是hadoop3中引入的命令行工具用于平衡DataNode中的数据在磁盘指甲分布不均匀问题。在这里特别注意hdfs diskbalancer与hdfsbalancer是不同的 HDFS Disk Balancer功能
数据传播报告
为了衡量集群中哪些计算机遭受数据分布不均的影响磁盘平衡器定义了volume data density metric磁盘/卷数据密度度量标准和Node Data Density metric节点数据密度度量标准
卷磁盘数据密度比较同台机器上不同卷之间的数据分布情况节点数据密度比较的是不同机器之间的 卷数据密度计算 假设有一台具有四个卷的计算机各个磁盘的使情况 磁盘平衡 当指定某个datanode节点进行disk数据平衡就可以先计算或读取当前的volume data density磁盘数据密度。有了这些数据我们可以轻松确定哪些卷已经超量配置哪些卷已经不足 为了将数据从一个卷移动到datanode中的另一个卷Hadoop开发实现了基于rpc协议的disk balancer
HDFS Disk Balancer开启
hdfs disk balancer通过创建计划进行操作该计划是一组语句描述应在两个磁盘之间移动多少数据然后在datanode上执行该语句。计划包含多个移动步骤。计划中的每个移动步骤都具有目标磁盘源磁盘的地址。移动步骤还具有要移动的字节数。该计划是针对可操作的datanode执行的默认情况下Hadoop集群上已经启用了disk balancer功能。通过hdfs-site.xml中调整dfs.disk.balancer.enabled参数值选择在Hadoop中是否启用磁盘平衡器
相关命令
plan计划 命令hdfs diskbalancer -plan datanode