grep、sed、gawk的正则表达式基础

2020-08-16 本文已影响0人大数据Zone

本文内容参考自：
Linux命令行与shell脚本编程大全.第3版

锚字符：

^：行首。脱字符(^)定义从数据流中文本行的行首开始的模式
$：行尾。将这个特殊字符放在文本模式之后来指明数据行必须以该文本模式结尾

BRE（基础正则表达式）

正则表达式的特殊字符包括以下：

.*[]^${}+?|()

点号字符：
用来匹配除换行符之外的任意单个字符。它必须匹配一个字符，如果在点号字符的位置没有字符，那么模式就不成立。

字符组：
使用方括号[]来定义一个字符组。方括号中包含所有你希望出现在该字符组中的字符。

排除型字符组：
在正则表达式模式中，也可以反转字符组的作用。可以寻找组中没有的字符，而不是去寻找组中含有的字符。要这么做的话，只要在字符组的开头加个脱字符。

注意，即使是排除型字符组，该位置也必须匹配一个字符。

区间：
[0-9]
[a-z]
[A-Z]

特殊的字符组：

星号：
在字符后面放置星号表明该字符必须在匹配模式的文本中出现0次或多次。

问号: 表明前面的字符出现0次或1次。

加号： 表明前面的字符出现1次或多次，必须至少出现1次。

花括号： 为前面的字符指定重复的次数。
{m}：字符准确出现m次。
{m,n}：字符至少出现m次，至多n次。

管道符号： 表示用逻辑OR方式指定正则表达式引擎要用的两个或多个模式。如果任何一个模式匹配了数据流文本，文本就通过测试。如果没有模式匹配，则数据流文本匹配失败。

expr1|expr2|...

表达式分组用小括号： 正则表达式模式也可以用圆括号进行分组。当你将正则表达式模式分组时，该组会被视为一个标准字符。可以像对普通字符一样给该组使用特殊字符。

例如：

$ echo "Sat" | gawk '/Sat(urday)?/{print $0}'
    Sat
$ echo "Saturday" | gawk '/Sat(urday)?/{print $0}'
    Saturday
$

把urday看成了一组。可以出现0次或1次。