LINUX 系统管理

2017-06-06  本文已影响16人  銭兎孑
                          #  一 进程管理
              
      1. 进程简介
        
      进程是正在执行的一个程序或命令,每一个进程都是一个运行的实体,都有自己的地址空间,并占用一定的系统资源。
                  
      2. 进程管理的作用
          1)判断服务器健康状态
          2)查看系统中所有进程
          3)杀死进程     
      3. 杀死进程
      4. 修改进程优先级
  
                         #   简介与分类
           
           1. 进程管理简介
           2. 进程的查看 -- ps 和 pstree 命令
           3. 进程的查看 --top命令


                         #   查看所有进程
    
            ps aux 查看系统中所有进程,使用BSD操作系统格式
            ps -le  查看系统中所有进程,使用linux标准命令格式
            选项:
                -a : 显示一个终端的所有进程,除了回家引线
                -u: 显示进程的归属用户及内存的使用情况
                -x: 显示没有控制终端的进程
                -l : 长格式显示,显示更加详细的信息
                -e :显示所有进程和-A作用一致
    
                            # ps命令的输出

            USER: 该进程是由哪个用户产生的
            PID: 进程的ID好
            %CPU:该进程占用CPU资源的百分比,占用越高,进程越消耗资源
            %MEM:该进程占用物理内存的百分比,占用越高,进程越消耗资源
            VSZ:该进程占用虚拟内存的大小,单位KB
            RSS:该进程占用虚拟内存的大小,单位KB
            TTY:该进程是在那个终端中运行的。其中tty | -tty7代表本地控制台终端,tty1-tty6是本地的字符界面终端,tty7是图形终端。pts/0-255代表虚拟终端。
            STAT:进程状态,常见的状态有:
                         R:运行 S:睡眠 T:停止状态 s:包含子进程 +:位于后台
            START: 该进程的启动时间
            TIME: 该进程占用CPU的运算时间,注意不是系统时间
            COMMAND:产生此进程的命令名


                                      # 查看进程树
  
             pstree [选项]
                         -p:显示进程的PID
                         -u:显示进程的所属用户
            
                                      # 查看系统健康状态
                      
             top [选项]
                          -d:秒数 指定top命令每隔几秒更新,默认3秒
                          -b:使用批处理模式输出,一般和“-n”选项合用
                          -n 次数:制定top命令执行的次数,一般和“-b”选项合用
                 
                  在top命令的交互模式当中可以执行的命令
                        ?或h : 显示交互模式的帮助
                         P:以CPU使用率排序,默认就是此项
                         M:以内存的使用率排序
                         N:以PID排序
                         q:退出top

  
                              # top 查询出的信息
  
            第一行为队列信息
    
                      内容                                                说明
              12:26:46                                     系统当前时间
              up 1 day,13:32                          系统的运行时间,
                                                            本机已经运行1天13小时32分钟
              2 users                                             当前登陆了2个用户
              load arerage:0.00 0.00 0.00   15分钟的平均负载,一般认为小于1时,负载较小
                                                                 如果大于1,系统已超出负荷

            第二行为进程信息
                          
                      内容                                                  说明
                tasks : 95 total                             系统中的进程总数
                1 running                                        正在运行的进程数
                94 sleeping                                     睡眠的进程
                0 stopped                                       正在停止的进程
                0 zombie                                        僵尸进程,如果不是0,需要手工检查僵尸进程

            第三行为CPU信息

                       内容                                                    说明
                Cpu(s): 0.1%us                             用户模式占用的CPU百分比
                0.1%sy                                             系统模式占用的CPU百分比
                0.0%ni                                            改变过优先级的用户进程占用的CPU百分比
                99.7%id                                            空闲的CPU百分比
                0.1%wa                                             等待输入/输出的进程的占用CPU百分比
                0.0%hi                                               硬中断请求服务占用的CPU百分比
                0.1%si                                               软终端请求服务占用的CPU百分比
                0.0%st                                               st(steal time)虚拟时间百分比。就是当有
                                                                          虚拟机时,虚拟CPU等待实际CPU时间

             第四行为物理内存信息

                      内容                                                         说明
                Mem:625344k total                          物理内存的总量,单位KB
                571504k used                                     已使用物理内存数量
                53840k  free                                        空闲的物理内存数量
                65800k buffers                                    作为缓冲的内存数量

            第五行为交换分区(swap)信息
    
                      内容                                                             说明
               swap:524280k total                              交换分区(虚拟内存)的总大小
               ok used                                                   已经使用的交互分区的大小
               524280k free                                           空间交换分区的大小
               409280k cached                                      作为缓存的交互分区的大小

                                          使用top查看所有进程
              top -b -n 1 > /root/top.log




                                          杀死进程

                1. kill 
                    kill    -l   查看可用的进程信号

                例:
              信号代号             信号名称                      说明
                  1.                     SIGHUP             该信号让进程立即关闭,
                                                                      然后重新读取配置文件之后重启
                  2.                     SIGINT               程序终止信号,用于终止前台进程。
                                                                       相当于输出ctrl+c快捷键
                  8.                      SIGFPE             在发生致命的算术运算错误时发出,不仅包
                                                                       含浮点运算,还包括溢出及除数0等其他所
                                                                       有算数的错误
                  9.                      SIGKILL             用来立即结束程序的运行,本信号不能被阻
                                                                        塞、处理和忽略一般用于强制终止进程
                  14.                    SIGALRM           时钟定时信号,计算的是实际时间或时钟时
                                                                        间,alarm使用该信号
                  15.                    SIGTERM           正常结束进程的信息,kill命令的默认信号,
                                                                         有时如果进程已经发生问题,这个信号是
                                                                         无法正常终止进程的,我们才会尝试
                                                                         SIGKILL信号也就是信号9
                   18.                   SIGCONT            该信号可以让暂停的进程回复执行,本信号
                                                                          不能被阻断                    
                   19.                   SIGSTOP             该信号可以暂停前台进程,相当于输入
                                                                            ctrl+z快捷键,本信号不能被阻断
      
            例:
                kill -1 端口号 重启进程
                kill - 9 端口号 强制杀死进程


                                     #2. killall 命令
    
            killall [选项][信号]进程名                  按照进程名杀死进程
                        -i  交互式,寻味是否要杀死某个进程
                        -I  忽略进程名的大小写

                                     #3. pkill 命令
            pkill [选项][信号]进程名                     按照进程名终止进程
                        -t 端口号 : 按照终端号提出用户
                         
            w:查看当前登陆用户


                                     #进程优先级简介

              Linux操作系统是一个多用户、多任务的操作系统,Linux系统中通知运行着非常多的进程。但是CPU在同一个时钟周期内只能运算一个指令。进程优先级决定了每个进程处理的先后顺序

              ps -le    PRI代表Priority ,Ni代表Nice 这两个值都是优先级,数字越小代表该进程优先级越高

                            
                                    # 修改NI值时有几个注意事项

               1. NI的值的范围是-20 到 19
               2. 普通用户调整NI值的范围是0到19,而且只能调整自己的进程
               3. 普通用户只能调高NI值,而不能降低,如果本NI值为0,则只能调整为大于0
               4. root用户才能设定进程NI值为负值,而且可以调整任何用户的进程
               5. PRI(最终值) =  PRI(原始值) + NI
               6. 用户只能修改NI的值,不能直接修改PRI

                                      # nice 命令
                nice [选项] 命令  nice命令可以给新执行的命令直接赋予NI值,但是不能修改已经存在进程的Ni值
                            -n   NI值:给命令赋予NI值

                例:
                   nice -n -5 service httpd start
      
                                     # renice 命令
  
                 renicre [优先级] PID
                 renice 命令是修改已经存在的进程的NI值的命令
                 renice -10 2125


                                      # 工作管理
  
                  jobs 查询在后台执行的进程

                                      # 工作管理简介
                  
    工作管理指的是在单个登陆终端中(也就是登陆的shell界面中)同时管理多个工作的行为。

                                      # 注意事项
  
            1 当前的登陆终端,只能管理当前终端的工作,而不能管理其他登陆终端工作
            2 放入后台的命令必须可以持续执行一段时间,这样我们才能捕捉和操作这个工作
            3 放入后台执行的命令不能和前台用户有交互或需要前台输入,否则放入后台只能暂停,而不能执行

                                      # 1.把进程放入后台

              1 top & 把命令放入后台,并在后台执行
              2 ctrl+z 快捷键,放在后台暂停

                                     # 2. 查看后台的工作
            
               jbos [-l]
                          -l : 显示工作的PID
                        注: “+”号代表最近一个放入后台的工作,也是工作恢复时,默认恢复的工作。“-”号代表倒数第二个放入后台的工作

                                    # 3.将后台暂停的工作恢复到前台执行
        
                fg % 工作号
                    参数: 
                        % 工作号:%号可以省略,但是要注意工作号和PID的区别

                                  # 4. 把后台暂停的工作回复到后台执行
                
                 bg % 工作号
                        注: 后台回复执行的命令,是不能和前台有交互的,否则不能回复到后台执行

                                   # 后台命令脱离登陆终端执行的方法
  
                 第一种方法是把需要后台执行的命令加入/etc/rc.local文件
                 第二种方法是使用系统定时任务,让系统在制定的时间执行某个后台命令
                 第三种方法是nohup命令
        
                                  #  nohup 命令
                  
                   nohup [命令] & 
  
                                          # 系统资源查看
  
                                  # 1 vmstat 命令监控系统资源

                    vmstat [刷新延时 刷新次数] 例: vmstat 1 3

                    procs:进程信息字段
                                  r : 等待运行的进程数,数量越大,系统越繁忙
                                  b : 不可被唤醒的进程数,数量越大,系统越繁忙

                     memory : 内存信息字段
                            swod:虚拟内存的使用情况,单位KB
                            free:空闲的内存容量,单位KB
                            buff:还从的内存容量,单位KB
                            cache:缓存的内容容量,单位KB
                        
                     swap : 交换分区的信息字段:
                            si:从磁盘中交换到内存中数据的数量,单位KB
                            so:从内存中交换到磁盘中数据的数量,单位KB。此两个数越大,证明数据需要经常在磁盘和内存之间交换,系统性能越差
                      
                      io : 磁盘读写信息字段:
                            bi:从块设备读取数据的总量,单位是块
                            bo:写到块设备的数据的总量,单位是块。此两个数越大,代表系统的I/0越繁忙
                
                      system:系统信息字段
                            in:每秒被终端的进程次数
                            cs:每秒中进行的事件切换次数,此两个数越大,代表系统与接口设备的通信越繁忙
  
                      cpu: cpu 信息字段
                            us:非内核进程消耗cpu运算的百分比
                            sy:内核进程消耗cpu运算时间的百分比
                            id:空闲cpu的百分比
                            wa:等待I/O所消耗的CPU百分比
                            st:被虚拟机所盗用的CPU占比

                                  # 2. dmesg 开机时内核检测信息

                      dmesg 
                      dmesg | grep cpu
  
                                  # 3. free 命令查看内存使用状态

                      free [-b|-k|-m|-g]
                                  -b:以字节为单位显示
                                  -k:以kb为单位显示,默认就是以KB为单位显示
                                  -m:以MB为单位显示
                                  -g:以GB为单位显示

                                  # 4. 查看cpu信息
  
                      cat /proc/cpuinfo
  
                                 # 5. uptime 命令
  
                      uptime  显示系统的启动时间和平均负载吗也就是top命令的第一行,w命令也可以看到这个数据。

                                 # 6. 查看系统与内核相关信息

                       uname [选项]
                                      -a : 查看系统所有相关信息
                                      -r: 查看内核版本
                                      -s:查看内核名称
  
                   判断当前系统位数      file /bin/ls 查看位数
                   
                    查看当前linux 系统的发行版本
                    lsb_release -a
  
                                 # 7. 列出进程打开或使用的文件信息

                     lsof [选项]
                            列出进程调用或打开的文件信息
                              -c 字符串:只列出以字符串开头的进程打开的文件
                              -u 用户名:只列出某个用户的进程打开的文件
                              -p pid : 列出某个PID进程打开的文件

                    lsof | more       查询系统中所有的进程调用的文件
                    lsof /sbin/init    查询某个文件被哪个进程调用
                    lsof -c httpd      查看httpd进程调用了哪些文件
                    lsof -u root        按用户名,查询某用户的进程调用的文件名



                                        # at 一次执行
      
                   1. 确定at安装
                         chkconfig --list | grep atd              at 服务是否安装
                         service atd restart                         at 服务重启

                    2. at 的访问控制
                          如果系统中有/etc/at.allow 文件,那么只有写入/etc/at.allow文件(白名单)中的用户可以使用at命令(/etc/at.deny文件会被忽略)
                          如果系统中没有/etc/at.allow文件,只有/etc/at.deny文件,那么写入/etc/at.deny文件(黑名单)的用户不能使用at命令  对root不起作用
                          如果系统中这两个文件都不存在,那么只有root用户可以是以哦那个at命令

                    3.at命令
                        at [选项] 时间
                              -m : 当at 工作完成后,无论是否命令有输出,都用email通知执行at命令的用户
                               -c 工作号:显示该at工作的实际内容
                                   时间:
                                HH:MM                             例:02:30
                                HH:MM YYYY-MM-DD     例: 02:30 2013-7-25
                                HH:MM [ap|pm] [month] [date] 例: 02:30 july 25
                                HH:MM [ap|pm]+[minutes|hours|days|weeks] 例: now +5 minutes

                    4. 例子1
                        at now+2 minutes
                        at > /root/hello.sh >> /root/hello.log
                      
                         例子2
                         at 02:00 2017-07-26
                         at> /bin/sync
                         at > /sbin/shutdown -r now
  
                    5. 其他at管理命令
        
                         atq 查询当前服务器上的at工作
                         atrm [工作号] 删除制定的at任务
                         ctrl+d 保存退出

                          Crontab 循环定时任务

                   1. crond 服务管理与访问控制
                        service crond restart
                        chkconfig crond on

                          访问控制

        当系统中有/etc/cron.allow 文件时,只有写入此文件的用户可以使用crontab命令,没有写入的用户不能使用crontab命令。同样如果有此文件,/etc/cron.deny文件会被忽略,/etc/cron.allow文件的优先级更高
        
         当系统中只有/etc/cron.deny文件时,则写入此文件的用户不能使用crontab命令,没有写入文件的用户可以使用crontab命令

                     2. 用户的crontab设置
      
         crontab [选项]
                           -e:biaoji crontab 定时任务
                           -l: 查询crontab任务
                          -r:删除当前用户所有的crontab任务               
                        
          项目                                    含义                              范围
        第一个“*”                一小时当中的第几分钟                0-59
        第二个“*”               一天当中的第几个小时                 0-23
        第三个“*”               一个月当中的第几天                     1-31
        第四个“*”               一年中的第几个月                         1-12
        第五个“*”               一周当中的星期几                          0-7(0和7都代表周日)  

        特殊符号                                                        含义
            *                代表任何时间。比如第一个“*”就代表一小时中每秒都执行一次的意思
            ,                代表不连续的时间,比如“0 8,12,16 * * * 命令” 就代表在每天的8点
                                 0分,12点0分,16点0分,都执行一次命令
            -                代表连续时间范围,比如“0 5 * * 1-6 命令”,代表周一到周六的凌晨5
                                点0分执命令
           */n               代表每隔多久执行一次。比如“*/10 * * * * 命令” 代表每隔10分钟就执
                                 行一遍命令

          时间

       45 22 * * * 命令                  在22点45分执行命令
       0 17 * * 1 命令                   每周一的17点0分执行命令
       0 5 1,5 * * 命令                  每月1号和15号的凌晨5点执行命令
       40 4 * * 1-5 命令                每周一到周五的凌晨4点40分执行命令
       */10 4 * * * 命令                  每天的凌晨4点,每隔10分钟执行命令
       0 0 1,15 * 1 命令              每月1号和15号,每周一的0点0分都会执行。
      注意:星期几和几号最好不要同时出现,他们定义的都是天,非常容易让管理员还乱

              例:
          */5 * * * * /bin/echo "11" >> /tmp/test
          5 5 * * 2 /sbin/shutdown -r now
          0 5 1,10,15 * * /root/sh/autobak.sh


                            4. crontab注意事项
  
      1) 六个选项都不能为空,必须填写。如果不确定使用“*”代表任意时间
      2) crontab 定时任务,最小有效时间是分钟,最大时间范围是月,像2018年某时执行,3点30分30秒这样的时间都不能识别
      3) 在定义时间时,日期和星期最好不要在一条定时任务中出现,因为他们都是以天为单位,非常容易让管理员混乱
      4) 在定时任务中,不管是直接写命令,还是在脚本中写命令,最好都是用绝对路径

                          系统的定时任务
  
      “crontab -e”是每个用户执行的命令,也就是说不同的命令身份可以执行自己的定时任务。可是有些定时任务需要系统执行,这时我们就需要编辑/etc/crontab这个配置文件了

                         执行系统的定时任务的方法

       手工执行定时任务
       系统定时任务

          第一种是把需要定时执行的脚本复制到/etc/cron.{daily,weekly,monthty,hourly}目录中的任意一个
          第二种是修改/etc/crontab 配置文件

                        anacron是什么

        anacron是用来保证在系统关机的时候错误的定时任务,可以在系统开机之后再执行

                         anacron 检测周期

        anacron会使用一天,七天,一个月作为检测周期

        在系统的/var/spool/anacron/目录中存在cron.{daily,weekly,monthly}文件,用于记录上执行cron的时间

        和当前时间做比较,如果两个时间的差值超过了anacron的制定时间差值,证明有cron任务被漏执行


                                Centos 6.x 区别

    在老的CentOS版本中,/etc.{daily,weekly,monthly}这些目录即会被cron调用,也会被anacron调用,容易重复执行
    在CentOS 6.x中则只会被anacron调用,避免了重复执行
    在CentOS 6.x中,anacron不再是服务,而是系统命令

                            anacron 配置文件

    vi /etc/anacrontab 
          RANDOM_DELAY=45  最大随机延时
          START_HOURS_RANGE=3-22   anacron的执行时间是3到22点
          1  5  cron.daily  nice  run-parts  /etc/cron.daily
          7  25  cron.weekly  nice  run-parts  /etc/cron.weekly
          @monthly 45 cron.monthly  nice run-parts  /etc/cron.monthly
           # 天数  强制延迟(分)  工作名称  实际执行的命令

                        cron.daily工作来说明执行过程
  
      首先读取/var/spool/anacron/cron.daily中上一次anacron执行的时间
      和当前时间比较,如果两个时间的差值超过1天,就执行cron.daily工作
      执行这个工作只能在03:00-22:00之间
      执行工作时强制延迟5分钟,再随机延迟0-45分钟时间
      使用nice命令制定默认优先级,使用run-parts 脚本执行/etc/cron.daily目录中的所有可执行文件






上一篇下一篇

猜你喜欢

热点阅读