grep、sed、gawk的正则表达式基础

2020-08-16  本文已影响0人  小北觅

本文内容参考自:
Linux命令行与shell脚本编程大全.第3版

锚字符:

^:行首。脱字符(^)定义从数据流中文本行的行首开始的模式
$:行尾。将这个 特殊字符放在文本模式之后来指明数据行必须以该文本模式结尾

BRE(基础正则表达式)

正则表达式的特殊字符包括以下:

.*[]^${}+?|()

点号字符:
用来匹配除换行符之外的任意单个字符。它必须匹配一个字符,如果在点号字 符的位置没有字符,那么模式就不成立。

字符组:
使用方括号[]来定义一个字符组。方括号中包含所有你希望出现在该字符组中的字符。

排除型字符组:
在正则表达式模式中,也可以反转字符组的作用。可以寻找组中没有的字符,而不是去寻找组中含有的字符。要这么做的话,只要在字符组的开头加个脱字符。

注意,即使是排除型字符组,该位置也必须匹配一个字符。

区间:
[0-9]
[a-z]
[A-Z]

特殊的字符组:

星号:
在字符后面放置星号表明该字符必须在匹配模式的文本中出现0次或多次。

ERE(扩展正则表达式)

问号: 表明前面的字符出现0次或1次。

加号: 表明前面的字符出现1次或多次,必须至少出现1次。

花括号: 为前面的字符指定重复的次数。
{m}:字符准确出现m次。
{m,n}:字符至少出现m次,至多n次。

管道符号: 表示用逻辑OR方式指定正则表达式引擎要用的两个或多个模 式。如果任何一个模式匹配了数据流文本,文本就通过测试。如果没有模式匹配,则数据流文本 匹配失败。

expr1|expr2|...

表达式分组用小括号: 正则表达式模式也可以用圆括号进行分组。当你将正则表达式模式分组时,该组会被视为一 个标准字符。可以像对普通字符一样给该组使用特殊字符。

例如:

$ echo "Sat" | gawk '/Sat(urday)?/{print $0}'
    Sat
$ echo "Saturday" | gawk '/Sat(urday)?/{print $0}'
    Saturday
$

把urday看成了一组。可以出现0次或1次。

上一篇下一篇

猜你喜欢

热点阅读