正则表达式

2018-03-10 本文已影响41人木可大大

前言

正则表达式（Regular Expression,RegEx）是一种匹配模式，描述的是一串文本特征。目前有两种匹配引擎，DFA(Deterministic finite automaton，确定型有穷自动机)和NFA(Non-deterministic finite automaton，非确定型有穷自动机)。NFA是以表达式为主，DFA以文本为主。正则表达式的匹配过程如下，以Java为例，通过Pattern p = Pattern.compile("表达式")将正则表达式文本编译成正则表达式对象，然后调用p.matcher("带匹配字符串")进行匹配。

image.png

正则表达式由两类字符构成，一类是具有特殊意义的"元字符"，另一类是普通的文本字符。元字符可以是一个字符，如"^"，也可以是一个字符序列，如"\d"。

元字符

.:匹配除换行符（\n）以外的任意的一个字符
\：转义字符，使特殊字符具有本来的意义
^：匹配字符串开始的位置，不匹配任何字符
$：匹配字符串结束的位置，不匹配任何字符

元字符--字符组(字符范围)

[...]：匹配方括号中的任意一个字符
[^...]：字符集取反，表示只要不是括号中出现的字符都可以匹配
\d：任意一个数字，相当于[0-9]
\D：任意一个非数字字符，\d取反，相当于[^0-9]
\w：任意一个字母或数字或下划线，相当于[a-zA-Z0-9_]
\W：\w取反，相当于[^a-zA-Z0-9_]
\s：任意空白字符，相当于[\r\n\f\t\v]
\S:任意非空白字符，\s取反，相当于[^\r\n\f\t\v]

元字符--量词

{m}，表示匹配m次
{m,n}，表示最少匹配m次，最多匹配n次
{m,}，表示最少匹配m次
?，表示匹配0或1次
*，表示匹配0或任意多次
+，表示匹配1或任意多次

元字符--分支结构

|：多个子表达式之间取或的关系

元字符--分组（也称子表达式）

用()表示，表示匹配多个字符

特性

贪婪模式和非贪婪模式

贪婪模式，顾名思义就是一种贪得无厌的模式，即匹配尽可能多的字符。举例来说，待匹配字符串<div>testtest</div> <div>testtest</div>,正则表达式<div>.+</div>,匹配的结果是整个字符串，而不是在第一个</div>就结束，所以贪婪模式是正则表达式重复匹配时的默认模式。

image.png
那么，如果我们只想获取尽可能少的匹配呢？怎么办？只需要在量词后面加一个？，还是上面那个栗子。

image.png

向前参照、向后参照

向前参照（？=表达式）

image.png

注意：向前参照时并不包含表达式，上个例子中并不包含':'
向后参照（？<=表达式）
image.png
通过(?<=a)ba查找到字符a的右侧是ba的字符串

否定向前参照（？!表达式）
否定向后参照 (?<!表达式）

捕获组

捕获组就是把正则表达式中子表达式匹配的内容，保存到内存中以数字编号命名。
例子：将abc def位子互换

image.png

反向引用

反向引用就是将捕获组的内容直接在表达式中引用。

image.png
注意：<a\s+href\=(['\"])[^'\"]+\1>也可以写成<a\s+href=(['"])[^'"]+\1>,我们经常将转移字符\写在可能会出现歧义的地方。

应用场景

正则表达式是在计算机领域运用常见很广，下面介绍几个常见场景：

web开发，邮编、电话号码验证；
运维，例如grep、awk等Linux基础指令都应用到正则表达式；
爬虫，爬虫网页，利用正则表达式提取相关信息；
编制自己的语言，在构建抽象语法树时就要用到正则表达式。

在Java中的使用

String.split("正则表达式")
Java中的正则表达式在默认情况下单行模式，即不管字符串中有没有换行，Java中只认为是一行的，Java中提供参数Pattern.MULTILINE来修改为多行模式。
Pattern pattern = Pattern.compile("^def$",Pattern.MULTILINE);
关于分组，将整个表达式的匹配结果当做第0个分组，第一个分组用group(1)获取，第i个分组用group(i)获取
具体代码详解github代码

正则表达式

前言

元字符

元字符--字符组(字符范围)

元字符--量词

元字符--分支结构

元字符--分组（也称子表达式）

特性

应用场景

在Java中的使用

猜你喜欢

热点阅读