Shell之小tip (1)
2020-06-14 本文已影响0人
凯凯何_Boy
1.查看服务器的基本信息
CPU信息统计 mpstat
虚拟内存统计 vmstat
查看进程使用内存状况 pmap
报告设备CPU和I/O统计信息 iostat
显示所有PCI设备 lspci
2.后台运行任务
1. nohup 任务 &
2. ctrl+z放入后台
jobs查看工作号
bg %+任务号
disown -h %+任务号 相当于nohup
- find的一些用法
find . -type f -size +100G 可以获取大小超过100G的文件
find . \( -name "*.png" -o -name "*.jpg" \)或者find . -regex ".*\(\.png\|\.jpg\)$" # 得到当前目录下所有png和jpg照片
find . -not -name *.log #查看不是log结尾的文件
find . -name *.log -exec grep -l 'Error' {} \;就可以返回所有包含Error单词的文件名
假设有个基因列表文件 (ID),有个单行序列的FASTA文件 (ehbio.fa), 运行如下命令grep -A 1 -Fw -f id ehbio.fa | grep -v -- '--'就可以批量提取序列了。
find logs -type f -mtime +5 -exec rm {} \;
find . -name "*.bam" | xargs rm
find . -name "*.conf" -mtime +5 -ok rm { } \;
-ok: 和-exec的作用相同,只不过以一种更为安全的模式来执行该参数所给出的shell命令,在执行每一个命令之前,都会给出提示,让用户来确定是否执行。
使用find时,只要把想要的操作写在一个文件里,就可以用exec来配合find查找,很方便 在有些操作系统中只允许-exec选项执行诸如ls或ls -l这样的命令。
exec选项后面跟随着所要执行的命令或脚本,然后是一对{},一个空格和一个\,最后是一个分号。为了使用exec选项,必须要同时使用print选项。
find logs -type f -mtime +5 -exec rm {} \;
在/etc目录下查找所有的目录,可以用:
find /etc -type d -print
在当前目录下查找除目录以外的所有类型的文件,可以用:
find . ! -type d -print
如果在查找文件时希望忽略某个目录,因为你知道那个目录中没有你所要查找的文件,那么可以使用-prune选项来指出需要忽略的目录
find /apps -path "/apps/bin" -prune -o -print
比如要在/home/itcast目录下查找不在dir1子目录之内的所有文件
find /home/itcast -path "/home/itcast/dir1" -prune -o -print
避开多个文件夹
find /home \( -path /home/itcast/f1 -o -path /home/itcast/f2 \) -prune -o -print
如果想在当前目录查找文件名以两个小写字母开头,跟着是两个数字,最后是.txt的文件
find . -name "[a-z][a-z][0-9][0-9].txt" -print
按照文件权限模式用-perm选项,按文件权限模式来查找文件的话
find . -perm 755 -print
在当前目录下查找文件长度大于1 M字节的文件
find . -size +1000000c -print
在/home/apache目录下查找文件长度恰好为100字节的文件:
find /home/apache -size 100c -print
查看大的文件(例如500M以上)
find . -type f -size +500M
在当前目录下查找长度超过10块的文件(一块等于512字节):
find . -size +10 -print
在当前目录下查找除目录以外的所有类型的文件,可以用
find . ! -type d -print
用减号-来限定更改时间在距今n日以内的文件,而用加号+来限定更改时间在距今n日以前的文件。
为了在/var/adm目录下查找更改时间在3日以前的文件,可以用:
$ find /var/adm -mtime +3 -print
希望在系统根目录下查找更改时间在5日以内的文件,可以用:
$ find / -mtime -5 -print
从当前目录开始查找位于本文件系统中文件名以XC结尾的文件:
find . -name "*.XC" -mount -print
用grep命令在所有的普通文件中搜索hello这个词:
find . -type f -print | xargs grep "hello"
find . -name \* -type f -print | xargs grep "hello"
#将所有以.txt结尾的文件重新命名为将.bak 结尾的文件
find . -name "*.txt" | sed "s/\.txt$//" | xargs -i echo mv {}.txt {}.bak | sh
4.文件压缩打包
tar -zcv -f folder.tar.gz folder #打包压缩文件夹(gzip格式)
tar -jcv -f folder.tar.gz folder #打包压缩文件夹(bzip2格式)
tar –ztv -f folder.tar.gz #查看压缩文件夹中的文件名(gzip格式)
tar –jtv -f folder.tar.gz #查看压缩文件夹中的文件名(bzip2格式)
tar -zxv –f folder.tar.gz #打开包并解压缩(gzip格式)
tar -jxv –f folder.tar.gz #打开包解压缩(bzip2格式)
gunzip命令用来解压缩文件。gunzip是个使用广泛的解压缩程序,它用于解开被gzip压缩过的文件,这些压缩文件预设最后的扩展名为.gz。事实上gunzip就是gzip的硬连接,因此不论是压缩或解压缩,都可通过gzip指令单独完成。
gzip -dc 1.gz > 1#不会删除源文件 解压缩
gzip -c 1>1.gz # 压缩 不会删除原文件
5.sed、grep、awk三剑客
grep
grep -wf 1.txt 2.txt 取两文件相同的行
grep -wvf 1.txt 2.txt 取 2 独有的文件
grep -v "NA" file.txt 反选
***匹配****
987-123-4567
123 456 7890
(123) 456-7890
grep -P '^(\d{3}-|\(\d{3}\) )\d{3}-\d{4}$' file.txt #正则
sed -n -r '/^([0-9]{3}-|\([0-9]{3}\) )[0-9]{3}-[0-9]{4}$/p' file.txt
awk '/^([0-9]{3}-|\([0-9]{3}\) )[0-9]{3}-([0-9]{4})$/' file.txt
sed
输出fasta中大于多少小于多少的序列:
sed 'N;s/\n/\t/' test.fa | awk 'BEGIN{OFS="\t";} {if (length($2)>=18 && length($2)<=30) {print $1,"\n",$2}}' | tr -d "\t"
sed N: 表示读入下一行;sed 命令每次只读一行,加上N 之后就是缓存了第2 行,所有的操作都针对第一行;
# 删除每行前两个字符
sed 's/..//' tmp.txt
删除每行前k个字符,例如k=5
sed 's/.\{5\}//' tmp.txt
sed -n '2~2 p' 1.txt 输出偶数行 sed -n 'n;p' 输出偶数行
sed -n '1~2 p' 1.txt 输出奇数行 类似于 sed 'n;d' 输出奇数行
sed '3{n;d}' 先匹配到第3行 再删除第4行
sed 'm, +n' 表示从m开始 向下n 行 sed ‘m~n’表示从m开始的每第n行
sed -n '/hello/, +5 p' 1.txt
sed 'a$ haha' 1.txt 在文本末尾追加一句话
sed '$!N;s/\n/ /' 将相邻两行内容链接为一行
sed '/AAA/!d; /BBB/!d; /CCC/!d' 显示 包含AAA BBB CCC 的行
sed 's/bc/-&-/' testfile
123
a-bc-
456
pattern2中的&表示原文件的当前行中与pattern1相匹配的字符串
$ sed 's/\([0-9]\)\([0-9]\)/-\1-~\2~/' testfile
-1-~2~3
abc
-4-~5~6
sed 's/^[ \t]*//' file.txt #去除文件中开头的空格或者tab字符:
sed -n '/abc/,$!p' file.txt #删除文件中行中包含abc的行及其这行以后的所有行:
awk
head -n1000 Homo_sapiens.GRCh37.75.gtf | awk '!/^#/{ print $1 "\t" $4-1 "\t" $5} ' | head -n 3 #gtf文件变bed文件
#转置文件 假如原始文本有m行n列(字段),那么转置后的文本应该有n行m列(空格分隔)
awk '{for(i=1;i<=NF;i++){if(NR==1){row[i]=$i} else{row[i]=row[i]" "$i}}};END{for(i=1;i<=NF;i++){print row[i]}}' file.txt
输出fasta中大于多少小于多少的序列:
sed 'N;s/\n/\t/' test.fa | awk 'BEGIN{OFS="\t";} {if (length($2)>=18 && length($2)<=30) {print $1,"\n",$2}}' | tr -d "\t"
#fasta提取单个序列
awk 'BEGIN{OFS=FS="\t"}{if($0~/>/) {name=$0; sub(">", "", name);} else seq[name]=$0;}END{print ">SOX2"; print seq["SOX2"]}' test.fasta
>SOX2
#求第二列百分比(只输出第二列)
awk '{a[NR]=$2;sum+=$2}END{for(i=1;i<=NR;i++)printf "%.1f\n", a[i]*100/su;m}' 1.txt
awk '!a[$1]++{print}' SSUnrblass.out > bestbit.blast blast #结果取最高的hit值
#重复值求和
awk '{pop[$1]+=$2}END{for (name in pop)print name "\t" pop[name]}' hekai.txt
awk 'BEGIN{getline;a=$1;printf ("%s\t%s",$1,$2)}{if(a==$1){printf ","$2}else{printf "\n%s\t%s",$1,$2;a=$1}}END{printf "\n"}' hekai.txt #利用 getline 通过第一列信息判断,将第一列相同的第二列内容合并 相当于bingo的输入文件
awk '{{split($0,arrary,",");split($0,table,"\t");}{print table[1],length(arrary)}}' go2geneid.txt | sort -nr -k 2 | head
#统计第二列的数量
awk 'BEGIN{OFS=FS="\t"}{if($0~/>/) {seq_name=$0;sub(">","",seq_name);}else {print seq_name,length;} }' test.fa #统计每条fasta的长度
awk '/^>/ {printf("\n%s\t",$0);next;} {printf("%s",$0);} END {printf("\n");}' test.fa | awk '{print $1,length($2)}' #fasta文件计算长度
awk '$1 ~/chr1/&& $3-$2 > 10' 1.txt
awk '$1 ~/chr1|chr2/ {print $0"\t"$3-$2}' 1.txt
awk 'BEGIN{s = 0};{s += ($3-$2)};END{print "mean: " s/NR};' example.bed
#根据每个序列的ID中的染色体编号拆分数据 每个染色体的数据对应到各自的文件夹(>chr7:4029380-4033359 <unknown description>)
awk 'BEGIN{FS = "[>:]"}{if(/^>/)(a[1]=$2);print $0 >> $2}else{print $0 >> a[1]}}'test.fa
#多行转单行fasta
awk '/^>/&&NR>1{print "";}{printf "%s",/^>/?$0"\n":$0}' test.fa
awk '/^>/ { print n $0;} !/^>/ {printf "%s", $0, n="\n"} END {print ""}' test.fa
统计第几列为多少的有几行
awk '$6=="uncultured" {a++}END{print a}' 11.txt
awk '{$NF="";print}' 删除最后一列
#去重以第一列和第二列重复的行:
cat 2.txt |awk '!a[$1" "$2]++{print}'
awk '!a[$0]++{print}'#去除重复的行
awk '!a[$1]++{print}'#去重第一列重复的行:
awk 'BEGIN {FS="[-:\t]";OFS="\t"}{if(/^#/){print $0}else{$6=$6+$2-1;$7=$7+$2-1;$2=$3="";sub(/\t+/,"\t");print}}' target.gff|awk '!/^#/{print $0}'#输入间隔或是-:'\t'
取出单行FASTA 文件中序列长度大于40 的序列的名字
awk 'BEGIN{OFS="\t";}{if($0~/>/) {geneName=$0; sub(">","",geneName); } else \
{if (length($0)>40) print geneName;}}' test.fa
利用AWK 进行标准化 百分比 多列
awk 'ARGIND==1{if(FNR>1) {for(i=2;i<=NF;i++) sum[i]=sum[i]+$i;}}ARGIND==2{if(FNR>1) for(i=2;i<=NF;i++) {$i=$i/sum[i];} print $0;}' 1.txt 1.txt
单列 转化百分比 (需要有标题行)
awk 'ARGIND==1{if(FNR>1) sum=sum+$2;}ARGIND==2{if(FNR>1) {$3=$2/sum;} print $0;}' test.expr test.expr
计算fastq文件中reads 长度的平均值:
awk 'NR%4==2{sum+=length($0)}END{print sum/(NR/4)}' input.fastq
#根据reads的名字,提取fastq中的reads:
zcat a.fastq.gz | awk 'BEGIN{RS="@";FS="\n"}; $1~/readsName/{print $2; exit}'
awk 'NR>=20&&NR<=80' input.txt 输出制定的行数:
awk -F "\t" '{print NF; exit}' 1.txt 打印列数
column 可以格式化输出 使列对齐
awk '$1~ /chr1/ && $3-$2 > 10 ' 1.txt
统计一个文件中的空行数
awk '/^ *$/ {x=x+1;} END {print x;}' testfile
某种产品的库存量低于75则在行末标注需要订货:
$ awk '$2<75 {printf "%s\t%s\n", $0, "REORDER";} $2>=75 {print $0;}' testfile