Skip to content

Latest commit

 

History

History
31 lines (9 loc) · 1.16 KB

HDFS balance策略详解.md

File metadata and controls

31 lines (9 loc) · 1.16 KB

1.HDFS负载均衡

Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,例如:当集群内新增、删除节点,或者某个节点机器内硬盘存储达到饱和值。当数据不平衡时,Map任务可能会分配到没有存储数据的机器,这将导致网络带宽的消耗,也无法很好的进行本地计算。

当HDFS负载不均衡时,需要对HDFS进行数据的负载均衡调整,即对各节点机器上数据的存储分布进行调整。从而,让数据均匀的分布在各个DataNode上,均衡IO性能,防止热点的发生。进行数据的负载均衡调整,必须要满足如下原则:

  1. 数据平衡不能导致数据块减少,数据块备份丢失
  2. 管理员可以中止数据平衡进程
  3. 每次移动的数据量以及占用的网络资源,必须是可控的
  4. 数据均衡过程,不能影响namenode的正常工作

2.Hadoop HDFS数据负载均衡原理

数据均衡过程的核心是一个数据均衡算法,该数据均衡算法将不断迭代数据均衡逻辑,直至集群内数据均衡为止。该数据均衡算法每次迭代的逻辑如下: