正则表达式入门
简书不维护了,欢迎关注我的知乎:波罗学的个人主页
上篇博文简单体验了正则表达式,文中最后在示例引入正则表达式的元字符。本篇博文将在此基础上继续介绍关于正则的知识。涉及内容元字符介绍,字符匹配,位置匹配,还有关于重复正则的设置。不涉及太多高级特性,目标是帮助大家掌握正则的基本使用。
元字符
元字符是正则里面的一些特殊符号,用来代指一些特殊的含义。
元字符或许类似于编程语言中的关键词,了解了各个关键词的使用,对语言的语法就有了基本的掌握。同样掌握了元字符,基本掌握了正则表达式的使用,并对正则的各种使用场景有了清楚的认识,。
上篇博文中已经列举了一些元字符,如
- \b代表单词边界
-
{}用于指定重复规则,如1{3},表示重复出现3次1
等等
当然,还有很多其他元字符,如
- \w代表数字、字母、下划线这类字符
- \s代表空白符,包括空格,水平制表符等
-
$代表文本结尾位置
等等
这里只展示了部分,在后面介绍正则的具体使用时会涉及更多。
注:当不需要元字符的特殊功能时,可以使用”\”转义,使用其本义,这种用法是不是感觉似曾相识呢?
字符匹配
字符匹配用于匹配某类字符,可分为自定义与预定义
- 自定义字符类,利用正则的语法把一些字符归类,如p、[123456789]、[a-z]等
- 预定义字符类,将某些常用规则预定义为一类,用元字符表示,如数字为\d
自定义字符类
自定义匹配规则多多,这里先介绍关于自定义正则的基本编写。首先下面列出关于定义字符匹配的一些元字符。
[] 指定字符范围的左右边界,其中列出的所有字符都满足匹配规则- 指定连续字符的两端字符,其之间字符都匹配,如a-z,即表示小写字母^ 当^符号在[]时,^表示反义,如[^a-z]表示不是小写字母的字符
示例演示,目标是搜索出不是数字、字母、下划线与空格的字符。测试文本如下
_ a , b . i - 2 ^ 3 \ C 5 9 A
可以很容易看出这里面有四个规则,即
- 数字
- 字母,注意是大小写字母
- 下划线
- 空格
但这里指定的前提是不满足上面四个规则,则正则表达式为[^0-9a-zA-Z_ ]
下面为正则验证工具的测试结果
[图片上传中...(image-e5c0a7-1551886971882-4)]
从上图可看出,这里匹配到了**, . - ^ \ **这五个符号,排除了我们指定的那些字符,完成我们的目标
掌握单个字符的自定义规则应该是用好正则的基石吧,即使有了下面要说的预定义字符类。
预定义字符类
预定义字符类是把我们常用的一些字符类预定义,并用特定的元字符表示,如数字类的自定义正则为[0-9],而其预定义正则为\d。
已知预定义的字符类如下
. 匹配换行符以外的任意字符,等价于[^\n]
\d 匹配数字,等价于[0-9]
\D \d的反义,匹配不是数字的字符,等价于[^0-9]
\w 匹配字母、数字、下划线,等价于[0-9a-zA-Z_],当选中unicode模式,支持汉字匹配
\W \w的反义,匹配不是数字、下划线、字母的字符,等价于[^0-9a-zA-Z_]
\s 匹配空白字符,包括空格、tab等空白字符,等价于[\t\n\x0B\f\r]
\S \s的反义,匹配不是空白字符的字符,等价于[^\t\n\x0B\f\r]...
上面都是一些预定义的正则规则,说明中也列出了其对应的自定义规则。将这些常用规则预定义好,我们使用起来也很是方便。
示例演示,假设现有文本如下
xxw 3d ja xxw 1 23 xuj2 23d xa2 23
找出其中所有满足连续为3个字母、数字或下划线(即\w),1个空格与1个数字连接的文本,可以写出正则为”\w\w\w\s\d”。验证工具测试结果为
image如上,找出了所有满足条件的文本,如”xxw 3”。如果要支持中文,需选择支持unicode模式,如下所示
image可以看出,这里除了选择了全局模式(g)外,还支持了unicode模式(u)。这样就可以实现对中文匹配的支持了。关于正则表达式中的模式这里暂不详细介绍。
位置匹配
位置匹配主要用于匹配指定的位置,既不占用空间,也不代表特定字符,如开头、结尾和单词边界等。如果上面的字符匹配,我们希望匹配规则只作用于文本开头,就用到了位置匹配。
正则表达式中关于位置匹配的元字符如下
^ 匹配文本开始位置$ 匹配文本结尾位置\b 匹配单词边界位置\B 匹配非单词边界位置
还是上面同样的文本,但是这次只匹配开头位置的文本。则可写出正则如^\w\w\ws\d,即在上例的正则前面加了元字符^,测试结果如下
image上图可以看出,此次只有开头的”xxw 3”被匹配到了。如需匹配文本结尾,则正则为\w\w\w\s\d$。还是比较容易理解的哦。
注:这些标示位置的元字符不代表任何特定字符
重复
细心的朋友可能已经注意到,这里在匹配三个\w字符时,连续写了3次\w\w\w。如果我们需要匹配100个\w,是不是需要写100个\w。当然不是,这就需用到元字符中的重复特性了。
正则表达式中关于重复设置如下
? 出现零次或一次+ 出现一次或多次* 出现任意次{n} 出现n次 {n,m} 出现n到m次 {n,} 至少出现n次 {0,m} 至多出现m次,属于{n,m}的一种,但比较特殊就单独列出
上面可以满足我们对于查找重复字符所有需求了吧!
好,那么我们下一个目标是,从下面的文本中找出所有至少6个字母的单词
I do not know what I do now is right, those are wrong, and when I finally Laosi when I know these. So I can do now is to try to do well in everything, and then wait to die a natural death.Sometimes I can be very happy to talk to everyone, can be very presumptuous, but no one knows, it is but very deliberatelycamouflage, camouflage; I can make him very happy very happy, but could not find the source of happiness, just giggle.
首先字母的限定需使用[a-zA-Z]指定,最少6个字母,即为 {6,},则正则表达式为\b[a-zA-Z]{6,}\b
使用验证工具测试结果如下
image从上图可以看出,所有的6个及以上字母的单词都已被搜索了出来,如finally,everything等,其更多的搜索规则如下
- 如需找出小于6个字母的单词,正则为\b[a-zA-Z]{0,5}\b
- 如需找出至少1个字母的单词,正则为\b[a-zA-Z]+\b
- 如需找出为1个字母的单词,正则为\b[a-zA-Z]{1}\b
- 如需找出单词开头为大写字母的单词,正则为\b[A-Z][a-zA-Z]\b*
了解了重复规则,那上面提到的匹配1000个\w就容易实现了,即\w{1000}。
到这里,关于正则基本使用介绍结束。各位读者多多包涵多多建议,谢谢。