4-19 Linux中的正则表达式 --- 字符匹配
2022-04-06 本文已影响0人
捌千里路雲和月
1、正则表达式和通配符有点像。区别在于通配符匹配的是文件名和目录名中的字符串,不能匹配文本中内容的字符串。而正则表达式匹配的是文本中的字符串。
2、正则表达式(REGEXP):由一类特殊字符及文本符号所编写的表达式,这种表达式的功能是匹配文本当中字符串。
3、正则表达式的特点:可以通过特殊字符及文本符号灵活组合各种过滤条件去匹配文本内容,从而达到自由度颇高的筛查方式。
4、正则表达式分两类:基本正则表达式(BRE)、扩展正则表达式(ERE),grep 加上 -E 参数就是使用 egrep。
5、元字符分类:元字符是指正则表达式中使用的特殊字符,这些特殊符号具有特定的功能。从功能上分类有:字符匹配、匹配次数、位置锚定、分组。
- 字符匹配:
①、 .:匹配任意单个字符。
②、 [ ]:匹配指定范围内的任意单个字符。
③、 [^]:排除匹配指定范围内的任意单个字符。
④、 [:alnum:]:字母和数字。
⑤、 [:alpha:]:任何英文大小写字符,即 A-Z,a-z。
⑥、 [:lower:]:小写字母。
⑦、 [:upper:]:大写字母。
⑧、 [:blank:]:空白字符(空格和制表符)。
⑨、 [:space:]:水平和垂直的空白字符(比 [:blank:] 包含的范围广)。
⑩、 [:cntrl:]:不打印的控制字符(退格、删除...)。
⑩-①、 [:digit:]:十进制数字。
⑩-②、 [:xdigit]:十六进制数字。
⑩-③、 [:graph:]:可打印的非空白字符。
⑩-④、 [:print:]:可打印字符。
⑩-⑤、 [:punct:]:标点符号。
①、 .:匹配任意单个字符。
- 创建一个文档 regexpTest.txt 。
[root@localhost ~]# vim regexpTest.txt
abc
abbc
abbbc
a.c
a/c
aabcd
aabbcc
~
~
~
:wq ## 保存退出
- "a.c":表示过滤 a 与 c 之间夹着一位任意字符的字符串。
- "a..c":表示过滤 a 与 c 之间夹着两位任意一位字符的字符串。
- 汉字也算一个字符,( . )代表任意字符。
[root@localhost ~]# vim regexpTest.txt ## regexpTest.txt 添加新内容
abc
abbc
abbbc
a.c
a/c
aabcd
aabbcc
a我c ## 新字符串
~
~
~
:wq
a我c:字符串 a 与 c 之间包含汉字字符也会被过滤出来
- "...":表示过滤包含三位的字符串。
- regexpTest.txt 新增点内容。
[root@localhost ~]# vim regexpTest.txt ## regexpTest.txt 添加新内容
abc
abbc
abbbc
a.c
a/c
aabcd
aabbcc
a我c
a ## 新增的内容
ab ## 新增的内容
~
~
~
:wq ## 保存退出
- 从输出结果可以看出不只是过滤出三位的字符串,而是三位以上的字符串都过滤出来了。这是 grep 默认的特性贪婪模式,尽可能的匹配满足的长度。
- "a...":表示过滤包含 a 开头,后面三位任意的字符。
- "..c":表示过滤包含 c 结尾,前面有两位任意的字符。
- "a \ .c":\ 转义字符,转义之后的。就是 . 本身的含义。不是正则表达式 . 任意单个字符的意思。所以,"a \ .c" 就是过滤出 a.c 的字符串。
②、 [ ]:匹配指定范围内的任意单个字符。
- "a[qwer我].":a 开头,第二位 [qwer我] 中括号的内容匹配文本中的字符串第二位,第三位 . 代表任意字符的意思。如果文本中的字符串有 a 开头,第二位也符合 q、w、e、r、我、的任意一个字符,而且满足三位的条件,就会打印出来。
③、 [^]:排除匹配指定范围内的任意单个字符。
- "a[^abc]":a 开头,第二位 [^abc] 中括号的内容取反,即排除掉。除了中括号内的 a、b、c 字符,匹配其他字符都可以过滤出结果。
④、 [:alnum:]:过滤字母和数字,包含了大写字母、小写字母 和 10个数字(0-9)。
- 更新以下 regexpTest.txt 内容
[root@localhost ~]# vim regexpTest.txt
---------
loginTest
---------
sn:888888
---------
~
~
~
:wq
- 由于 [:alunm:] 包含了大写字母、小写字母 和 10个数字(0-9)。当用 [ ] 中括号包含 [:alnum:] 就相当于大写字母、小写字母 和 10个数字(0-9)匹配文本中的内容。但凡符合要求的都会标红显示出来。
- 更改一下 regexpTest.txt 内容,加入一些中文看看 [:alnum:] 过滤的效果如何?
[root@localhost ~]# vim regexpTest.txt
----------
登录测试:
Test
----------
测试密码:
888888
----------
~
~
~
:wq
- 从输出效果看,[:alnum:] 也可以输出中文。
- [:alnum:] 也可以匹配指定范围的内容。例如过略 T 开头,第二位任意小写字母的内容。
T[a-z]:T 开头,第二位 a-z 任意小写字母作为过滤条件。
T[[:alnum:]]:T 开头,第二位 A-Z 大写字母、a-z 小写字母 和 10个数字(0-9)作为过滤条件。
- 当然 [:alnum:] 作为一个 A-Z 大写字母、a-z 小写字母 和 10个数字(0-9)的过滤条件范围有点大。第二位只要符合大写、小写 和 数字范围的字符都会被过滤出来。
- 单纯想过略 T 开头,第二位为任意小写字母的时候,用 [:alnum:] 显然不合适。这里只是想记录一下 [:alnum:] 这类特殊字符本意上类似数据的集合供使用者方便使用 和 写法上加了 [ ] 中括号的意思。
⑤、 [:alpha:]:任何英文大小写字符,即 A-Z,a-z。
- 更改一下 regexpTest.txt 内容。
[root@localhost ~]# vim regexpTest.txt
------------
大写英文:
ABC
------------
小写英文:
abc
------------
~
~
~
:wq
[:alpha:] 可以过滤中文字符
- [:alpha:] 匹配英文大小写字符,即 A-Z,a-z
⑥、 [:lower:]:只过滤小写字母。
[:lower:]:只过滤小写字母⑦、 [:upper:]:只过滤大写字母。
[:upper:]:只过滤大写字母⑧、 [:blank:]:空白字符(空格和制表符)。
- 更改一下 regexpTest.txt 内容。
[root@localhost ~]# vim regexpTest.txt
------------
空格(space): this's space.
------------
制表符(tab): this's tab.
------------
~
~
~
:wq
- 在输出中用鼠标括住输出内容就可以看到标红的部分,分别是 空格space 和 制表符 tab。
⑨、 [:space:]:水平和垂直的空白字符(比 [:blank:] 包含的范围广)。
[root@localhost ~]# vim regexpTest.txt
----------
登录测试: Test ## <--- Test 前面有 2 个 tab
----------
测试密码: 888888 ## <--- Test 前面有 1 个 tab
---------- ## <--- 这里结尾有 1 个空格
~
~
~
:wq
- 通过 [:space:] 可以看到过滤出 regexpTest.txt 文件中的空白字符。
⑩-①、 [:digit:]:十进制数字。
[:digit:] 显示所有的数字内容⑩-③、 [:graph:]:可打印的非空白字符。
[:graph:]:可打印的非空白字符⑩-④、 [:print:]:可打印字符。相当于 [:alnum:]、[:punct:] 和 space。
- 从输出效果看出 [:print:] 可以过滤中文、大小写英文、数字、标点 和 空格。但是不能过滤 tab。
⑩-⑤、 [:punct:]:标点符号。
[root@localhost ~]# vim regexpTest.txt
----------
登录测试:
Test
----------
测试密码:
888888
----------
符号测试
----------
` ~ ! @ # $ % ^ & * ( ) _ - + = \ | [ ] { } ; ' : " , . / < > ?
----------
~
~
~
:wq
[:punct:]:标点符号