hadoop集群的可扩展性和负载均衡

2019-10-10  本文已影响0人  alexlee666

一、hadoop集群的可扩展性

Hadoop集群具有如下主要特征:

因此Hadoop集群:

二、hadoop集群的负载均衡

2.1 什么是负载均衡

当向新增或者删除某个DataNode节点时,很容易出现不同DataNode节点的磁盘空间使用率出现不均等情况,比如大多数节点磁盘使用率为基本在30%,但是个别节点磁盘使用率达到90%以上。

2.2 负载不均衡导致的问题

比如:MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率等等。

2.3 如何解决负载不均衡问题?

2.3.1 使用HDFS自带的Balancer

影响Balancer的两个参数:

hdfs-site.xml文件中可以设置数据均衡占用的网络带宽限制:

<property>
    <name>dfs.balance.bandwidthPerSec</name>
    <value>1048576</value>
    <description> Specifies the maximum bandwidth that each datanode can utilize for the balancing purpose in term of the number of bytes per second. </description>
    </property>

执行Hadoop自带的start-balancer.sh脚本可以完成负载的重均衡,示例如下:

#启动数据均衡,默认阈值为 10%
$Hadoop_home/bin/start-balancer.sh

#启动数据均衡,阈值 5%
bin/start-balancer.sh –threshold 5

#停止数据均衡
$Hadoop_home/bin/stop-balancer.sh

参考:https://community.cloudera.com/t5/Support-Questions/Load-balancing/td-p/107811

上一篇下一篇

猜你喜欢

热点阅读