Linux内核参数、进程状态
1、列举常见的内核参数以及参数的意义
Linux内核参数,可以理解为Linux内核在运行过程中,通过传递特定的变量给到内核来实现不同的功能。
- 如何查看当前系统的所有内核参数
sysctl -a
当前系统内核参数
sysctl -a |grep "^net."
或查看当前系统某类,例如网络类的 - 如何修改内核参数
-
echo 1 > /proc/sys/net/ipv4/ip_forward ;sysctl -p
临时修改生效,重启系统后失效 -
echo "/proc/sys/net/ipv4/ip_forward = 1 >>/etc/sysctl.conf"
永久生效
-
- 常用参数说明
# 内核panic时,1秒后自动重启
kernel.panic = 1
# 允许更多的PIDs (减少滚动翻转问题); may break some programs 32768
kernel.pid_max = 32768
# 内核所允许的最大共享内存段的大小(bytes)
kernel.shmmax = 4294967296
# 在任何给定时刻,系统上可以使用的共享内存的总量(pages)
kernel.shmall = 1073741824
# 设定程序core时生成的文件名格式
kernel.core_pattern = core_%e
# 当发生oom时,自动转换为panic
vm.panic_on_oom = 1
# 表示强制Linux VM最低保留多少空闲内存(Kbytes)
vm.min_free_kbytes = 1048576
# 该值高于100,则将导致内核倾向于回收directory和inode cache
vm.vfs_cache_pressure = 250
# 表示系统进行交换行为的程度,数值(0-100)越高,越可能发生磁盘交换
vm.swappiness = 0
# 仅用10%做为系统cache
vm.dirty_ratio = 10
# 增加系统文件描述符限制 2^20-1
fs.file-max = 1048575
# 网络层优化
# listen()的默认参数,挂起请求的最大数量,默认128
net.core.somaxconn = 1024
# 增加Linux自动调整TCP缓冲区限制
net.core.wmem_default = 8388608
net.core.rmem_default = 8388608
net.core.rmem_max = 16777216
net.core.wmem_max = 16777216
# 进入包的最大设备队列.默认是300
net.core.netdev_max_backlog = 2000
# 开启SYN洪水攻击保护
net.ipv4.tcp_syncookies = 1
# 开启并记录欺骗,源路由和重定向包
net.ipv4.conf.all.log_martians = 1
net.ipv4.conf.default.log_martians = 1
# 处理无源路由的包
net.ipv4.conf.all.accept_source_route = 0
net.ipv4.conf.default.accept_source_route = 0
# 开启反向路径过滤
net.ipv4.conf.all.rp_filter = 1
net.ipv4.conf.default.rp_filter = 1
# 确保无人能修改路由表
net.ipv4.conf.all.accept_redirects = 0
net.ipv4.conf.default.accept_redirects = 0
net.ipv4.conf.all.secure_redirects = 0
net.ipv4.conf.default.secure_redirects = 0
# 增加系统IP端口限制
net.ipv4.ip_local_port_range = 9000 65533
# TTL
net.ipv4.ip_default_ttl = 64
# 增加TCP最大缓冲区大小
net.ipv4.tcp_rmem = 4096 87380 8388608
net.ipv4.tcp_wmem = 4096 32768 8388608
# Tcp自动窗口
net.ipv4.tcp_window_scaling = 1
# 进入SYN包的最大请求队列.默认1024
net.ipv4.tcp_max_syn_backlog = 8192
# 打开TIME-WAIT套接字重用功能,对于存在大量连接的Web服务器非常有效。
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_tw_reuse = 0
# 表示是否启用以一种比超时重发更精确的方法(请参阅 RFC 1323)来启用对 RTT 的计算;为了实现更好的性能应该启用这个选项
net.ipv4.tcp_timestamps = 0
# 表示本机向外发起TCP SYN连接超时重传的次数
net.ipv4.tcp_syn_retries = 2
net.ipv4.tcp_synack_retries = 2
# 减少处于FIN-WAIT-2连接状态的时间,使系统可以处理更多的连接。
net.ipv4.tcp_fin_timeout = 10
# 减少TCP KeepAlive连接侦测的时间,使系统可以处理更多的连接。
# 如果某个TCP连接在idle 300秒后,内核才发起probe.如果probe 2次(每次2秒)不成功,内核才彻底放弃,认为该连接已失效.
net.ipv4.tcp_keepalive_time = 300
net.ipv4.tcp_keepalive_probes = 2
net.ipv4.tcp_keepalive_intvl = 2
# 系统所能处理不属于任何进程的TCP sockets最大数量
net.ipv4.tcp_max_orphans = 262144
# 系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数字,TIME_WAIT套接字将立刻被清除并打印警告信息。
net.ipv4.tcp_max_tw_buckets = 20000
# arp_table的缓存限制优化
net.ipv4.neigh.default.gc_thresh1 = 128
net.ipv4.neigh.default.gc_thresh2 = 512
net.ipv4.neigh.default.gc_thresh3 = 4096
2、如何通过/proc查看top中展示的进程状态
Linux系统上的/proc目录是一种文件系统,即proc文件系统。与其它常见的文件系统不同的是,/proc是一种伪文件系统(也即虚拟文件系统),存储的是当前内核运行状态的一系列特殊文件,用户可以通过这些文件查看有关系统硬件及当前正在运行进程的信息,甚至可以通过更改其中某些文件来改变内核的运行状态。这个目录中包含每个进程的状态信息。
- 写一个死循环来观察
#####死循环脚本
#!/bin/bash
#
while true
do
echo "hello" &> /dev/null
done
#####top命令查看脚本运行状态
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
11885 root 20 0 113180 1212 1028 R 100.0 0.0 10:25.56 sh
#####在/proc目录下查看进程状态
[root@node01 11885]# pwd
/proc/11885 #进程目录
[root@node01 11885]# ls
attr clear_refs cpuset fd limits mem net oom_score projid_map sessionid stat task
autogroup cmdline cwd fdinfo loginuid mountinfo ns oom_score_adj root setgroups statm timers
auxv comm environ gid_map map_files mounts numa_maps pagemap sched smaps status uid_map
cgroup coredump_filter exe io maps mountstats oom_adj personality schedstat stack syscall wchan
[root@node01 11885]#
#####各文件表示的含义
cmdline — 启动当前进程的完整命令,但僵尸进程目录中的此文件不包含任何信息;
[root@node01 11885]# more cmdline
sh
cwd — 指向当前进程运行目录的一个符号链接;
[root@node01 11885]# ls -l cwd
lrwxrwxrwx. 1 root root 0 1月 21 20:21 cwd -> /root/scripts
environ — 当前进程的环境变量列表,彼此间用空字符(NULL)隔开;变量用大写字母表示,其值用小写字母表示;
exe — 指向启动当前进程的可执行文件(完整路径)的符号链接,通过/proc/N/exe可以启动当前进程的一个拷贝;
fd — 这是个目录,包含当前进程打开的每一个文件的文件描述符(file descriptor),这些文件描述符是指向实际文件的一个符号链接;
[root@node01 11885]# cd fd
[root@node01 fd]# ls -l
总用量 0
lrwx------. 1 root root 64 1月 21 20:36 0 -> /dev/pts/0
lrwx------. 1 root root 64 1月 21 20:36 1 -> /dev/pts/0
lrwx------. 1 root root 64 1月 21 20:36 2 -> /dev/pts/0
lr-x------. 1 root root 64 1月 21 20:36 255 -> /root/scripts/while.sh
limits — 当前进程所使用的每一个受限资源的软限制、硬限制和管理单元;此文件仅可由实际启动当前进程的UID用户读取;(2.6.24以后的内核版本支持此功能);
mem — 当前进程所占用的内存空间,由open、read和lseek等系统调用使用,不能被用户读取;
stat — 当前进程的状态信息,包含一系统格式化后的数据列,可读性差,通常由ps命令使用;
statm — 当前进程占用内存的状态信息,通常以“页面”(page)表示;
status — 与stat所提供信息类似,但可读性较好,如下所示,每行表示一个属性信息;其详细介绍请参见 proc的man手册页;
[root@node01 11885]# more status
Name: sh
Umask: 0022
State: R (running)
Tgid: 11885
Ngid: 0
Pid: 11885
PPid: 7573
TracerPid: 0
Uid: 0 0 0 0
Gid: 0 0 0 0
FDSize: 256
Groups: 0
VmPeak: 113180 kB
VmSize: 113180 kB
VmLck: 0 kB
VmPin: 0 kB
VmHWM: 1212 kB
VmRSS: 1212 kB
RssAnon: 184 kB
RssFile: 1028 kB
RssShmem: 0 kB
VmData: 208 kB
VmStk: 132 kB
VmExe: 884 kB
VmLib: 2092 kB
VmPTE: 60 kB
VmSwap: 0 kB
Threads: 1
SigQ: 0/15077
SigPnd: 0000000000000000
ShdPnd: 0000000000000000
SigBlk: 0000000000000000
SigIgn: 0000000000000004
SigCgt: 0000000000010000
CapInh: 0000000000000000
CapPrm: 0000001fffffffff
CapEff: 0000001fffffffff
CapBnd: 0000001fffffffff
CapAmb: 0000000000000000
Seccomp: 0
Cpus_allowed: 3
Cpus_allowed_list: 0-1
Mems_allowed: 00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,000
00000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000000,00000001
Mems_allowed_list: 0
voluntary_ctxt_switches: 1
nonvoluntary_ctxt_switches: 152160
3、分别用while、for循环检测10.0.0.1/24网段存活的IP地址
思路,将while、for循环写成函数的形式,运行命令是通过传参告诉脚本使用for循环还是while循环并传递网段地址
#!/bin/bash
#while\for循环实现ping网段IP存活状态
while_ping(){
local i=1
while [ $i -le 255 ];do
ping -W 1 -c 1 $1.$i &> /dev/null
if [ $? == 0 ];then
echo "$1.$i is up"
else
echo "$1.$i is down"
fi
let i++
done
}
for_ping(){
for i in {1..255};do
ping -W 1 -c 1 $1.$i &> /dev/null
if [ $? == 0 ];then
echo "$1.$i is up"
else
echo "$1.$i is down"
fi
done
}
########################
if [ $# -lt 2 ];then
echo "Usage sh $0 {for_ping|while_ping} IP网段"
exit 1
elif [[ $1 == "for_ping" ]];then
echo "for_ping"
for_ping $2
elif [[ $1 == "while_ping" ]];then
echo "while_ping"
while_ping $2
fi
4、说明initrd的作用
说到initrd的作用我们先看下Linux服务器的启动流程:
POST-->BOOT Sequence(BIOS)-->Boot loader(MBR)-->Kernel(ramdisk)-->rootfs-->swichroot-->/sbin/init-->(etc/inittab,/etc/init/*.conf)-->设定默认运行级别-->系统初始化脚本-->关闭或启动对应级别下的服务-->启动终端
而inird的作用是在Kernel启动阶段使用。
其实initrd-release.img是一个镜像文件,类似ramdisk,把一段程序打包到img里,然后在开机的时候在内存里开辟一段区域,其中包含的都是一些初始化的程序,比如sisc_mod、ext3、sd_mod等模块和insmod、nash等命令。不同内核,初始化的img可以相同,也可以不同,如果没有,可以在grub.conf里加上no initrd,它就跳过initrd的检测和执行了。它的作用是在没有mount/分区以前,系统要执行一些操作,比如挂载scsi驱动,它就把initrd释放到内存里,作一个虚拟的/,然后执行其根目录下的一个脚本“linuxrc”,运行insmod和nash命令挂装模块。为什么有的时候我们grub的配置文件中不加入该行都可以正常开机呢?这是因为我们一般的PC机都没有使用scsi硬盘等需要先加载其驱动的设备,所以就算没有initrd-release.img也可以正常开机。
总的来说分这几步
a.内核启动时加载 initrd img, mount 为 /
b.依 /linuxrc 的指令执行, 一般有扫描系统硬件,从当前文件系统中找到驱动安装之.
c.挂载系统中真正的 /