正则表达式入门

2019-03-06 本文已影响0人波罗学的草稿

image.png

简书不维护了，欢迎关注我的知乎：波罗学的个人主页

上篇博文简单体验了正则表达式，文中最后在示例引入正则表达式的元字符。本篇博文将在此基础上继续介绍关于正则的知识。涉及内容元字符介绍，字符匹配，位置匹配，还有关于重复正则的设置。不涉及太多高级特性，目标是帮助大家掌握正则的基本使用。

元字符

元字符是正则里面的一些特殊符号，用来代指一些特殊的含义。
元字符或许类似于编程语言中的关键词，了解了各个关键词的使用，对语言的语法就有了基本的掌握。同样掌握了元字符，基本掌握了正则表达式的使用，并对正则的各种使用场景有了清楚的认识，。

上篇博文中已经列举了一些元字符，如

\b代表单词边界
{}用于指定重复规则，如1{3}，表示重复出现3次1
等等

当然，还有很多其他元字符，如

\w代表数字、字母、下划线这类字符
\s代表空白符，包括空格，水平制表符等
$代表文本结尾位置
等等

这里只展示了部分，在后面介绍正则的具体使用时会涉及更多。

注：当不需要元字符的特殊功能时，可以使用”\”转义，使用其本义，这种用法是不是感觉似曾相识呢？

字符匹配

字符匹配用于匹配某类字符，可分为自定义与预定义

自定义字符类，利用正则的语法把一些字符归类，如p、[123456789]、[a-z]等
预定义字符类，将某些常用规则预定义为一类，用元字符表示，如数字为\d

自定义字符类

自定义匹配规则多多，这里先介绍关于自定义正则的基本编写。首先下面列出关于定义字符匹配的一些元字符。

[]      指定字符范围的左右边界，其中列出的所有字符都满足匹配规则-       指定连续字符的两端字符，其之间字符都匹配，如a-z，即表示小写字母^       当^符号在[]时，^表示反义，如[^a-z]表示不是小写字母的字符

示例演示，目标是搜索出不是数字、字母、下划线与空格的字符。测试文本如下

_ a , b . i - 2 ^ 3 \ C 5 9 A

可以很容易看出这里面有四个规则，即

数字
字母，注意是大小写字母
下划线
空格

但这里指定的前提是不满足上面四个规则，则正则表达式为[^0-9a-zA-Z_ ]
下面为正则验证工具的测试结果

[图片上传中...(image-e5c0a7-1551886971882-4)]

从上图可看出，这里匹配到了**, . - ^ \ **这五个符号，排除了我们指定的那些字符，完成我们的目标

掌握单个字符的自定义规则应该是用好正则的基石吧，即使有了下面要说的预定义字符类。

预定义字符类

预定义字符类是把我们常用的一些字符类预定义，并用特定的元字符表示，如数字类的自定义正则为[0-9]，而其预定义正则为\d。

已知预定义的字符类如下

.       匹配换行符以外的任意字符，等价于[^\n]
\d      匹配数字，等价于[0-9]
\D      \d的反义，匹配不是数字的字符，等价于[^0-9]
\w      匹配字母、数字、下划线，等价于[0-9a-zA-Z_]，当选中unicode模式，支持汉字匹配
\W      \w的反义，匹配不是数字、下划线、字母的字符，等价于[^0-9a-zA-Z_]
\s      匹配空白字符，包括空格、tab等空白字符，等价于[\t\n\x0B\f\r]
\S      \s的反义，匹配不是空白字符的字符，等价于[^\t\n\x0B\f\r]...

上面都是一些预定义的正则规则，说明中也列出了其对应的自定义规则。将这些常用规则预定义好，我们使用起来也很是方便。

示例演示，假设现有文本如下

xxw 3d ja xxw 1 23 xuj2 23d xa2 23

找出其中所有满足连续为3个字母、数字或下划线(即\w)，1个空格与1个数字连接的文本，可以写出正则为”\w\w\w\s\d”。验证工具测试结果为

image

如上，找出了所有满足条件的文本，如”xxw 3”。如果要支持中文，需选择支持unicode模式，如下所示

image

可以看出，这里除了选择了全局模式(g)外，还支持了unicode模式(u)。这样就可以实现对中文匹配的支持了。关于正则表达式中的模式这里暂不详细介绍。

位置匹配

位置匹配主要用于匹配指定的位置，既不占用空间，也不代表特定字符，如开头、结尾和单词边界等。如果上面的字符匹配，我们希望匹配规则只作用于文本开头，就用到了位置匹配。

正则表达式中关于位置匹配的元字符如下

^       匹配文本开始位置$       匹配文本结尾位置\b      匹配单词边界位置\B      匹配非单词边界位置

还是上面同样的文本，但是这次只匹配开头位置的文本。则可写出正则如^\w\w\ws\d，即在上例的正则前面加了元字符^，测试结果如下

image

上图可以看出，此次只有开头的”xxw 3”被匹配到了。如需匹配文本结尾，则正则为\w\w\w\s\d$。还是比较容易理解的哦。

注：这些标示位置的元字符不代表任何特定字符

重复

细心的朋友可能已经注意到，这里在匹配三个\w字符时，连续写了3次\w\w\w。如果我们需要匹配100个\w，是不是需要写100个\w。当然不是，这就需用到元字符中的重复特性了。

正则表达式中关于重复设置如下

?       出现零次或一次+       出现一次或多次*       出现任意次{n}     出现n次 {n,m}   出现n到m次 {n,}    至少出现n次 {0,m}   至多出现m次，属于{n,m}的一种，但比较特殊就单独列出

上面可以满足我们对于查找重复字符所有需求了吧！

好，那么我们下一个目标是，从下面的文本中找出所有至少6个字母的单词

I do not know what I do now is right, those are wrong, and when I finally Laosi when I know these. So I can do now is to try to do well in everything, and then wait to die a natural death.Sometimes I can be very happy to talk to everyone, can be very presumptuous, but no one knows, it is but very deliberatelycamouflage, camouflage; I can make him very happy very happy, but could not find the source of happiness, just giggle.

首先字母的限定需使用[a-zA-Z]指定，最少6个字母，即为 {6,}，则正则表达式为\b[a-zA-Z]{6,}\b

使用验证工具测试结果如下

image

从上图可以看出，所有的6个及以上字母的单词都已被搜索了出来，如finally，everything等，其更多的搜索规则如下

如需找出小于6个字母的单词，正则为\b[a-zA-Z]{0,5}\b
如需找出至少1个字母的单词，正则为\b[a-zA-Z]+\b
如需找出为1个字母的单词，正则为\b[a-zA-Z]{1}\b
如需找出单词开头为大写字母的单词，正则为\b[A-Z][a-zA-Z]\b*

了解了重复规则，那上面提到的匹配1000个\w就容易实现了，即\w{1000}。

到这里，关于正则基本使用介绍结束。各位读者多多包涵多多建议，谢谢。

正则表达式入门

元字符

字符匹配

自定义字符类

预定义字符类

位置匹配

重复

猜你喜欢

热点阅读