集群重启详述
简述:
在测试过程中经常遇到机器大数据底层服务异常或者是某一台节点异常宕机,因此需要重启大数据底层服务,运维人员不一定能够第一时间响应,因此需要具备一定的集群基本技能,具体步骤梳理如下。
集群底层的关系图,有上至下分别是:SSSD、krd、LDAP、BIND,SSSD、krd、LDAP 是租户相关的服务,SSSD是在机器重启的时候会默认重启,每台机器上都有这个服务,也有可能出现异常情况;Krb、LDAP是只有机器上有该服务,一般也会有两个节点,进行主备;BIND是DNS服务节点,重启机器后也需要进行启动。
一、启动Ldap、kerbores
使用root账号:
/data/ldap/libexec/slapd -f /data/ldap/etc/openladp/slapd.conf
检查启动是否成功ps –aux |grepldap
/data/krb/sbin/krb5kdc
检查启动是否成功:ps –aux|grepkrb
/data/krb/sbin/kadmind
检查启动是否成功:ps –aux|grep kr
Service sssd restart
使用kerb的账号查看id,查看进程是否正常。
二、启动DNS服务
在dns服务的节点上执行命令:
/data/bind/sbin/named–c /data/bind/etc/named.conf
检查是否启动成功:ps –aux |grep named
配置其他机器的dns客户端:在文件/etc/resolv.conf文件下配置nameserver 10.146.30.15(ip)
检查是否配置成功,如检查node1的配置:nslookupn1.dsj.migu.cn
三、启动ntpd服务
在集群所有节点上,执行servicentpd restart
四、zookeeper
切换到hadoop账户
在所有zk所在的节点zookeeper
bin目录下执行./zkserver.sh start启动
检查./zkserver.sh
status查看zk的状态
(如不小心使用了root账号启动后,需要删除zookeeper.out日志文件,不然会导致hadoop账号启动zk失败)通过jps可以查看进程是否存在。
五、启动hadoop(hdfs、yarn)
在hdfs的namenode所在的节点上执行以下命令:echo $HADOOP_HOME,查看hadoop的安装路径。
进入$HADOOP_HOME/sbin下,执行start-dfs.sh启动hadoop相关服务
启动完毕后再次执行start-dfs.sh,打印日志:“stop it first”证明已经启动成功了。
这里面包含hdfs相关的进程:包含namenode、journal、zkfc、datanode服务,可通过jps查看到。
如果某一台机器的某个应用启动失败,则需进入对应机器检查原因,并单独启动,
如启动namenode命令:sbin/hadoop-daemon.sh start namenode
六、启动yarn
在当前目录下执行./start-yarn.sh启动集群yarn进程。
可通过jps查看:
七、启动hive
hive的元数据存放在mysql中,因此如要成功启动hive,需要启动hive元数据存放的mysql:echo $HIVE_HOME,查看hive的安装路径;
进入HADOOP_HOME/conf下,打开文件:hive-site.xml;
查看到mysql使用的10.123.30.16上的mysql,登录到机器10.123.30.16,使用root账户,切换到mysql账户,并执行命令:vim /etc/my.cnf 查看mysql的安装路径
进入/data/mysql/mysql-5.7.22;
执行启动命令:./bin/mysqld_safe –user=mysql &
查看是否启动成功:
(1)ps –ef |grep mysql
(2)在安装了hive客户端的机器上执行:hive命令进入hive命令行;
执行简单的语句select count(*) from tablename;检查hive是否正常。
八、spark检查
spark只是客户端,启动了yarn便可以使用spark。
在集群中任意节点执行:spark-sql可进入spark命令行。
执行简单的语句select
count(*) from tablename;检查spark是否正常。
注意不能使用select * 来检查,因为这种并不会使用spark的计算引擎。
九、hbase启动
Echo $HBASE_HOME ;
进入$HBASE_HOME/bin;
执行:./start-hbase.sh
检查hbase是否正常:(1)输入hbase shell命令(2)list;
Ps:停止集群也尽量按照一定顺序来1、hbase 2、Hadoop 3、zookeeper
另:集群重启后redis、nfs等还需要重新启动,可联系运维处理。