awk | 学习（二）

2019-03-30 本文已影响26人溪溪溪溪溪川

awk正则

运算符	功能	示例	描述
^	行首定位符	/^root/	匹配所有已root开头的行
$	行尾定位符	/root$/	匹配所有已root结尾的行
.	匹配任意单个字符	/r..t/	匹配r，然后任意两个字符，再以t结尾
*	匹配0个或多个前导字符	/a*ool/	匹配0个或者多个a之后紧跟着ool的行，比如ool，aaool等
+	匹配1个或者多个前导字符	/a+b/	匹配一个或多个a+b的行，比如ab，aab等
？	匹配0个或多个前导字符	a？b/	匹配b或者ab行
[]	匹配指定字符组内的任意一个字符	^[abc]	匹配以字母a或b或c开头的行
[^]	匹配不在指定字符组内的任意一个字符	/^[abc/	匹配不以字母a或b或c开头的行
(..)	子表达字符	/(rool)+/	表示一个或者多个rool组合，当有一些字符需要组合时，使用括号
\|	或者的意思	/(root)\|B/	匹配root或者B的行
\	转义字符	/a\/\//	匹配a//
~,!~	匹配，不匹配的条件语句	$1~/root/	匹配第一个字段包含root的所有字符
x{m}	重复字符x,m次	/root{2}/	注意：root加括号和不加括号的区别，x可以表示字符串也可以只是一个字符，这里表示roott
x{m,}	重复字符x，至少m次	/root{2,}/	表示rootroot
x{m,n}	重复字符x，至少m次 ,不多于n次	/root{2,3}	匹配2~3个root的行

pattern

1.正则表达模式 / /

pengzw@super-server:~$ cat test2.txt
A   B   C
Hello   word!
Write   a   word!
I   love    dog!
Good    good    study!

精确查询

pengzw@super-server:~$ awk '/word/{print $0}' test2.txt #匹配word的行
Hello   word!
Write   a   word!

模糊查询

pengzw@super-server:~$ awk '/o.*/{print $0}' test2.txt #匹配所有含有0的行，包括一个或多个o
Hello   word!
Write   a   word!
I   love    dog!
Good    good    study!

2.行范围模式

对行进行操作，用到内置变量。

内置变量

变量	描述
$n	当前记录的第n个字段，字段间由FS分隔，$n表示第n个域
$0	完整的输入记录，$0则表示所有域
ARGC	命令行参数的数目
ARGIND	命令行中当前文件的位置(从0开始算)
ARGV	包含命令行参数的数组
CONVFMT	数字转换格式(默认值为%.6g)ENVIRON环境变量关联数组
ERRNO	最后一个系统错误的描述
FIELDWIDTHS	字段宽度列表(用空格键分隔)
FILENAME	当前文件名
FNR	各文件分别计数的行号
FS	字段分隔符(默认是任何空格)
IGNORECASE	如果为真，则进行忽略大小写的匹配
NF	一条记录的字段的数目
NR	已经读出的记录数，就是行号，从1开始
OFMT	数字的输出格式(默认值是%.6g)
OFS	输出记录分隔符（输出换行符），输出时用指定的符号代替换行符
ORS	输出记录分隔符(默认值是一个换行符)
RLENGTH	由match函数所匹配的字符串的长度
RS	记录分隔符(默认是一个换行符)
RSTART	由match函数所匹配的字符串的第一个位置
SUBSEP	数组下标分隔符(默认值是/034)

内置变量.jpg

示例：

取拟南芥gff3文件的前十行为test.gff
== 字符双引号

pengzw@super-server:~$ cat test.gff
##gff-version 3
##annot-version TAIR10
Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010
Chr1    phytozomev10    mRNA    3631    5899    .   +   .   ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=
Chr1    phytozomev10    five_prime_UTR  3631    3759    .   +   .   ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G0101

pengzw@super-server:~$ awk '$3 =="gene" {print $0 }' test.gff  #将第三列为gene的行输出到屏幕上
Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010

打印两列 $4"\t"$5，需要制定分割符如"\t"

pengzw@super-server:~$ awk '$1 =="Chr1"  && $4 >= 1 && $5 <=5000  {print $0 }' test.gff 
Chr1    phytozomev10    five_prime_UTR  3631    3759    .   +   .   ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G01010.1.TAIR10;pacid=19656964

pengzw@super-server:~$ awk '$1 =="Chr1"  && $4 >= 1 && $5 <=5000  {print $4$5 }' test.gff 
36313759

pengzw@super-server:~$ awk '$1 =="Chr1"  && $4 >= 1 && $5 <=5000  {print $4"\t"$5 }' test.gff 
3631    3759

打印1到4行的内容

pengzw@super-server:~$ awk 'NR>=1 && NR<=4 {print $0}' test.gff
##gff-version 3
##annot-version TAIR10
Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010
Chr1    phytozomev10    mRNA    3631    5899    .   +   .   ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=1;Parent=AT1G01010.TAIR10

两个正则/gff/,/gene/ {print $0}，注意：正则1和正则2，都以第一次匹配到的行为准。

pengzw@super-server:~$ awk '/gff/,/gene/ {print $0}' test.gff
##gff-version 3
##annot-version TAIR10
Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010

FS 设置成";"
RS 记录分隔符变量
OFS 输出字段分隔符
ORS 输出记录分隔符
多个输出可以指定相同的分割符号 print ，分割

pengzw@super-server:~$ awk 'BEGIN{FS=";";RS="\n";OFS="#"}{print $1,$2,$3,$4}' at.gff
##gff-version 3###
##annot-version TAIR10###
Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10#Name=AT1G01010##
Chr1    phytozomev10    mRNA    3631    5899    .   +   .   ID=AT1G01010.1.TAIR10#Name=AT1G01010.1#pacid=19656964#longest=1
Chr1    phytozomev10    five_prime_UTR  3631    3759    .   +   .   ID=AT1G01010.1.TAIR10.five_prime_UTR.1#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1    phytozomev10    CDS 3760    3913    .   +   0   ID=AT1G01010.1.TAIR10.CDS.1#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1    phytozomev10    CDS 3996    4276    .   +   2   ID=AT1G01010.1.TAIR10.CDS.2#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1    phytozomev10    CDS 4486    4605    .   +   0   ID=AT1G01010.1.TAIR10.CDS.3#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1    phytozomev10    CDS 4706    5095    .   +   0   ID=AT1G01010.1.TAIR10.CDS.4#Parent=AT1G01010.1.TAIR10#pacid=19656964#
Chr1    phytozomev10    CDS 5174    5326    .   +   0   ID=AT1G01010.1.TAIR10.CDS.5#Parent=AT1G01010.1.TAIR10#pacid=19656964#

3.BGDIN和END模式

BEGIN是在开始读取一个文件之前进行的操作，其后面的代码只会运行一次
END 指令和 BEGIN 正好相反，在 awk 读取并且处理完文件的所有内容之后，才会执行 END 后面的代码

pengzw@super-server:~$ cat test.gff
A   B   C   D   E   F   G   H   I
Chr1    phytozomev10    gene    3631    5899    .   +   .   ID=AT1G01010.TAIR10;Name=AT1G01010
Chr1    phytozomev10    mRNA    3631    5899    .   +   .   ID=AT1G01010.1.TAIR10;Name=AT1G01010.1;pacid=19656964;longest=1;Parent=AT1G01010.TAIR10
Chr1    phytozomev10    five_prime_UTR  3631    3759    .   +   .    ID=AT1G01010.1.TAIR10.five_prime_UTR.1;Parent=AT1G01010.1.TAIR10;pacid=19656964
pengzw@super-server:~$ awk 'BEGIN{print "C D"} NR>=2 {print $3"\t"$4}' test.gff 
C D
gene    3631
mRNA    3631
five_prime_UTR  3631
pengzw@super-server:~$ awk 'BEGIN{print "C D"} END{print"end"} NR>=2 {print $3"\t"$4}' test.gff
C D
gene    3631
mRNA    3631
five_prime_UTR  3631
end

4.action

awk的大括号里面的代码不仅仅只有打印的功能，还可以进行常规的算数运算
+ - 运算符

pengzw@super-server:~$ awk 'BEGIN{print "C D E"} END{print"end"} NR>=2 {print $3,$4,$5,$5-$4}' test.gff
C D E
gene 3631 5899 2268
mRNA 3631 5899 2268
five_prime_UTR 3631 3759 128
end

action中使用条件语句if，两个中括号，一个括号

pengzw@super-server:~$ awk '{if($3=="gene"){print $3,$4,$5,$5-$4}}' test.gff
gene 3631 5899 2268