CDH5.16 组件元数据备份和恢复

2020-04-09  本文已影响0人  皇甫LG

一、Zookeeper备份与迁移恢复

1.1 备份数据文件

cd /var/lib/zookeeper/
tar -zcvf  zookeeper-backup-`date +%F`CM-CDH.tar.gz version-2 myid

md5sum  zookeeper-backup-`date +%F`CM-CDH.tar.gz > zookeeper_backup.md5

1.2 拷贝备份文件发送到目标服务器(仅做备份用)

scp /var/lib/zookeeper/zookeeper-backup-`date +%F`CM-CDH.tar.gz  zookeeper_backup.md5 用户名@IP:/tmp

1.3 登陆到目标服务器

mkdir /var/lib/zookeeper

# 修改目录属组为zookeeper
chown -R zookeeper:zookeeper /var/lib/zookeeper

cp /tmp/zookeeper* /var/lib/zookeeper/

# 在目标服务器上对拷贝后的文件再次生成md5,与zookeeper_backup.md5文件值进行对比。
md5sum -c zookeeper_backup.md5
tar -zxvf  zookeeper-backup-`date +%F`CM-CDH.tar.gz

# 创建myid(参考最新ID+1)
echo 4 > myid
chown zookeeper:zookeeper myid

1.4 删除旧角色

选择ZooKeeper-->实例-->选择旧实例(非leader)-->停止-->删除

1.5 添加新角色

使用CDH,选择zookeeper,"添加角色实例"--> 选择目标主机-->路径选择"/var/lib/zookeeper/"点击继续-->点击完成 -->返回zookeepery实例操作页面,选择新的角色Server-->点击启动

1.6 重启客户端过期配置

选择剩余三个Serer角色,依次重启。 并检查只有一个Leader节点。其他节点都是follower
验证:echo "stat" | nc master 2181 | grep Mode

1.7 验证

二、HDFS NameNode备份与迁移恢复

2.1 进入safemode模式

$ sudo -u hdfs hadoop dfsadmin -safemode enter

2.2 将所有edits 修改flush到fsimage

$ sudo -u hdfs hadoop dfsadmin -saveNamespace

2.3 备份namenode元数据

mkdir /tmp/namenode_backup

# 将nn目录下所有文件压缩
cd /dfs
tar -zcvf /tmp/namenode_backup/nn_backup_`date +%F`.tar.gz nn

# 记录md5值
md5sum /tmp/namenode_backup/nn_backup_`date +%F`.tar.gz > /tmp/namenode_backup/nn_backup.md5

2.4 发送到目标服务器上

cd /tmp/namenode_backup
scp nn_backup_`date +%F`.tar.gz nn_backup.md5 用户名@IP:/tmp

# 在目标服务器上,重新生成md5与原md5值校验是否一致
md5sum -c /tmp/nn_backup_new.md5

# 解压缩到目标位置

mkdir /dfs

cp /tmp/nn_backup* /dfs

tar -zxf nn_backup_`date +%F`.tar.gz

2.5 退出safemode模式(此模式下,主备切换会失败)

$ sudo -u hdfs hadoop dfsadmin -safemode leave

2.6 删除旧角色

使用CDH---->HDFS实例---->分别选择{NameNode}---->选择{备用NameNode}---->停止---->删除

2.7 添加新角色

CDH---->NameNode
    |-->添加角色实例
    |-->选择新{NameNode和Failover Controller}
    |-->点击继续→完成
    |-->返回NameNode实例页面
    |-->点击新角色NameNode
    |-->配置
    |-->添加以下配置(添加新Namenode角色后需要修改配置):
1、NameNode Nameservice 与主NameNode的值一致。"nameservice1"
2、Quorum Journal 名称 与主NameNode的值一致。"nameservice1"
3、dfs.ha.automatic-failover.enabled 点击启用

   |-->选择新加入的“: Failover Controller”
   |-->点击启动
   |-->选择旧的Failover Controller 角色-->停止-->删除。
   |-->依次点击NameNode(活动)角色 重启
   |-->选择新加入的NameNode 角色
   |-->点击启动 (前提是已经确认备份的nn元数据文件 已经放到目标路径 例如/dfs/nn)
   |-->依次重启其他“使用过时的配置”的角色

2.9 重新部署客户端配置

最后等所有服务都启动正常后, 点击页面左上角 HDFS-->过期配置:需要重新部署客户端配置。

验证: 使用CDH,查看namenode服务各个实例运行正常,监控指标正常。

备注:如果选择备用NameNode-->迁移角色-->选择源主机和目标主机-->这种方式会重启整个集群

三、HDFS JournalNodes备份与迁移恢复

3.1 备份namenode元数据

mkdir /tmp/journalnode_backup
cd /dfs
tar -zcvf /tmp/journalnode_backup/jn_backup_`date +%F`.tar.gz jn 

# 记录md5值
md5sum /tmp/journalnode_backup/jn_backup_`date +%F`.tar.gz > /tmp/journalnode_backup/jn_backup.md5

3.2 发送到目标服务器上

scp /tmp/journalnode_backup/jn_backup* 用户名@目标IP:/tmp

# 在目标服务器上,重新生成md5与原md5值校验是否一致
md5sum -c /tmp/jn_backup_new.md5

# 解压缩到目标位置
mkdir /dfs
cd /dfs
cp /tmp/jn_backup* /dfs
tar -zxf jn_backup_`date +%F`.tar.gz
chown hdfs:hadoop -R /dfs/jn

【以下操作,不能处于safemode模式,否则就会报错。】

3.3 添加新角色

使用CDH,点击JournalNode-->添加角色实例-->选择新JournalNode主机-->点击继续-->完成

3.4 删除旧角色

选择HDFS实例-->选择JournalNode角色-->选择备用JournalNode→停止-->删除。

3.5 启动角色并验证

返回JournalNode实例页面-->选择新JournalNode→启动。依次重启NameNode角色。(此时会发生HA主备切换)
验证: 使用CDH,查看ournalnode服务各个实例运行正常,监控指标正常。
备注:如果选择备用JameNode-->迁移角色-->选择源主机和目标主机-->这种方式会重启整个集群

四、Hive元数据备份与迁移恢复

4.1 备份Hive元数据

4.2、迁移前记录每个表数据量并抽取样本。

记录每个表数据量
mysql > SELECT TABLE_NAME, TABLE_ROWS FROM `information_schema`.`tables` WHERE `table_schema` = 'hive';
mysql > --抽取样本

4.3 拷贝到目标服务器

拷贝第一步中的sql和sql.md5文件到新的数据库服务器上
md5sum -c  sql.md5 对比两个md5文件数值是否一致。此步骤校验数据拷贝完整性。

4.4 导入新数据库

mysql -u用户名 -p密码 数据库名 < 数据库名.sql

4.5 验证数据完整性

导入新数据库后记录表数据量并抽取样本。校验新、旧数据库中数据是否完整。
记录每个表数据量
mysql > SELECT TABLE_NAME, TABLE_ROWS FROM `information_schema`.`tables` WHERE `table_schema` = 'hive'; 
mysql > --抽取样本

4.6 修改hive db配置

使用CDH,点击Hive-->配置-->选择左边栏"Hive Metastore数据库" -->修改Hive Metastore 数据库主机地址。(前提是 数据库已经迁移到新环境中,如果未迁移则此步骤跳过)

4.7、启动

点击添加角色实例-->”Hive Metastore Server“ -->选择新主机地址-->点击完成-->点击启动。

4.8 删除旧角色

选择Hive实例-->选择旧的Hive Metastore Server-->停止-->删除。

4.9、重启过时配置

依次重启各个Hive Metastore Server(过时配置)
验证: 通过cdh上查看hive组件服务以及各个监控项是否正常显示。通过hive客户端操作元数据是否正常(增、删、改、差)。
上一篇 下一篇

猜你喜欢

热点阅读