正则表达式之入门

2017-03-14 本文已影响38人朋友喜欢叫我春哥

正则表达式是什么？

正则表达式是用于匹配字符串中字符组合的模式。简单来说，用一种描述性语言去规定字符串的一种规则，如果符合，就匹配了，否则就是不匹配。

定义总是很枯燥不直观，我们来举个例子吧。假如你想从"hi my friend"里找出hi单词，我们定义正则表达式：/hi/，比如你想匹配三位数字 123，235等，你可以定义表达式/\d\d\d/,这里的\d我们称为元字符，它含义是匹配一个数字字符，那这里是3个\d所以就可以匹配3个数字，是不是很简单啊。

\d{3}表示匹配3个数字，例如'010'；
\d{3,8}表示3-8个数字，例如'1234567'。
'00\d'可以匹配'007'，但无法匹配'00A'；

这里的{}也是元字符，后面会介绍。

正则表达式基本语法

既然是一种描述性语言，那么就有自己特殊的语法，所以需要大致记忆一下。当然使用的多了，自然就熟悉了。

元字符

具有特殊意义的正则表达式，这样可以更好描述需要匹配的字符串。

上面介绍过\d匹配一个数字字符，还有\w匹配一个单字字符（字母、数字或者下划线）,\s匹配任意的空白符.

Markdown

.(小数点）匹配除换行符之外的任何单个字符。
例如.b,就会匹配“bcd abc”中的ab,而不会匹配bc

\b\w{6}\b 匹配6个字符的单词，{6}重复6次

^和$都表示匹配一个位置，^表示字符串开头位置，$表示字符串结尾，例如我们匹配QQ号^\d{5,12}$,{5,12}重复5到12次，因为前后匹配位置，所以必须输入5到12位数字才能匹配。

限定符

表示前面正则字符重复的次数

Markdown

例如：

bc*匹配 “bc”或“bcccccccccccccc”

a+/匹配了在 "candy" 中的 'a'，和在 "caaaaaaandy" 中所有的 'a'

e?le? 匹配 "angel" 中的 'el'，和 "angle" 中的 'le' 以及"oslo' 中的'l'。

定位符

定位符用来描述字符串或单词的边界

Markdown

例如你要寻找字符串中hi，但是如果没有设置单词边界，就有可能匹配出him,history,high,但是使用\bhi\b就只会匹配hi单词。

而/B其实是\b的取反，oo\B可以匹配“foot”里的oo

字符转义

如果你想查找本身具有特殊意义的元字符，如果直接使用就会产生问题，这时你就得使用\来取消这些字符的特殊意义。

因此，你应该使用\.和\*。当然，要查找\本身，你也得用\\.

字符类

有的时候我只是想找元音字母a,e,i,o,u，其他字母不需要怎么办?很明显\w不适合的。

那我们应该自定义自己需要的字符集[a,e,i,o,u], 其实\d等于[0-9],而\w等于[a-z0-9A-Z_]

分枝条件

x|y
你可以理解为逻辑运算里“或”

例如：
green|red匹配“green apple”中的‘green’和“red apple”中的‘red’

分组

我们可以重复单个字符多次，但是怎么可以重复多个字符多次呢？？你可以用小括号()来指定子表达式(也叫做分组)，然后你就可以指定这个子表达式的重复次数了

模式 (foo) (bar) \1 \2 中的 '(foo)' 和 '(bar)' 匹配并记住字符串 "foo bar foo bar" 中前两个单词,每个小括号表示一个分组，1和2是组号而\1表示第一个分组匹配。

例如：\b(\w+)\b\s+\1\b可以用来匹配重复的单词，像go go, 或者kitty kitty

贪婪与懒惰

正则表达式默认是尽可能匹配多的字符，以这个表达式为例：a.*b,这样，它将会匹配最长的以a开始，以b结束的字符串。如果用它来搜索aabab的话，它会匹配整个字符串aabab。这被称为贪婪匹配。

但是很明显有时候我们需要尽可能匹配少的字符，那我们可以加限定符?,
a.*?b,这样如果用它来搜索aabab的话，它会匹配整个字符串aab和ab

Markdown

标志

正则表达式有四个可选参数进行全局和不分大小写搜索。这些参数既可以单独使用也可以一起使用在任何顺序和包含正则表达式的部分中。

Markdown

使用正则表达式

创建一个正则表达式

正则表达式字面量

/*
   /pattern/flags
*/

const regex = /ab+c/;

const regex = /^[a-zA-Z]+[0-9]*\W?_$/gi;

调用RegExp对象的构造函数

/*
    new RegExp(pattern [, flags])
*/

let regex = new RegExp("ab+c");

let regex = new RegExp(/^[a-zA-Z]+[0-9]*\W?_$, "gi");

let regex = new RegExp("^[a-zA-Z]+[0-9]*\W?_$", "gi");