grep、sed、gawk的正则表达式基础
2020-08-16 本文已影响0人
小北觅
本文内容参考自:
Linux命令行与shell脚本编程大全.第3版
锚字符:
^:行首。脱字符(^)定义从数据流中文本行的行首开始的模式
$:行尾。将这个 特殊字符放在文本模式之后来指明数据行必须以该文本模式结尾
BRE(基础正则表达式)
正则表达式的特殊字符包括以下:
.*[]^${}+?|()
点号字符:
用来匹配除换行符之外的任意单个字符。它必须匹配一个字符,如果在点号字 符的位置没有字符,那么模式就不成立。
字符组:
使用方括号[]来定义一个字符组。方括号中包含所有你希望出现在该字符组中的字符。
排除型字符组:
在正则表达式模式中,也可以反转字符组的作用。可以寻找组中没有的字符,而不是去寻找组中含有的字符。要这么做的话,只要在字符组的开头加个脱字符。
注意,即使是排除型字符组,该位置也必须匹配一个字符。
区间:
[0-9]
[a-z]
[A-Z]
特殊的字符组:
星号:
在字符后面放置星号表明该字符必须在匹配模式的文本中出现0次或多次。
ERE(扩展正则表达式)
问号: 表明前面的字符出现0次或1次。
加号: 表明前面的字符出现1次或多次,必须至少出现1次。
花括号: 为前面的字符指定重复的次数。
{m}:字符准确出现m次。
{m,n}:字符至少出现m次,至多n次。
管道符号: 表示用逻辑OR方式指定正则表达式引擎要用的两个或多个模 式。如果任何一个模式匹配了数据流文本,文本就通过测试。如果没有模式匹配,则数据流文本 匹配失败。
expr1|expr2|...
表达式分组用小括号: 正则表达式模式也可以用圆括号进行分组。当你将正则表达式模式分组时,该组会被视为一 个标准字符。可以像对普通字符一样给该组使用特殊字符。
例如:
$ echo "Sat" | gawk '/Sat(urday)?/{print $0}'
Sat
$ echo "Saturday" | gawk '/Sat(urday)?/{print $0}'
Saturday
$
把urday看成了一组。可以出现0次或1次。