正则表达式

2018-04-04 本文已影响0人 honDor

以前每次要用到正则表达式都会到处去找资料看看元字符、限定符有哪些，怎么去用。用的很不熟悉，于是特意花了一个晚上去好好学学。写这篇博客对学到知识做一个的总结，也给以后做个参考吧，毕竟如果不经常用的话可能又会忘掉。
正则在线测试工具

什么是正则表达式

正则表达式是用于进行文本匹配的工具，就把正则表达式理解成一个字符串匹配规则，可以根据这个规则在文本中找到你想要的字符串部分。
接下来直接从元字符、字符转义、重复、字符类、反义、分枝条件、分组、向后引用这些来做个小归纳。

1 元字符（metacharacter）

元字符	说明
.	匹配除换行以外的任意字符
\d	匹配数字
\s	匹配空白符（空格符' '、水平制表符'\t'、垂直制表符'\v'、换行符'\n'、回车符'\r'）
\w	匹配字母\数字\下划线\汉字
\b	匹配单词的开始或结束
^	匹配字符串的开始
$	匹配字符串的结束

例子

\bhongyu\w*\b 匹配以hongyu开头的单词。
^\d{5,12}$ 匹配一个含有5到12位数字的字符串。

2 字符转义

当要匹配特殊字符本身时，用\来取消特殊字符的特殊意义

字符	表示
.	\.
*	\*
\	\\
^	\^
$	\$

例子

c:\\windows匹配c:\windows。
hongdou \^ hongyu匹配hongdou ^ hongyu。

3 重复

代码/语法	说明
*	重复零次或更多次
+	重复一次或更多次
?	重复零次或一次
{n}	重复n次
{n,}	重复n次或更多次
{n,m}	重复n到m次

例子

hi \w+ 匹配以hi 开头后面跟一个或多个字符的字符串。
134\d{8} 匹配以134开头的11位数字的字符串。

4 字符类

[aeiou] 匹配任何一个元音字母 a,e,i,o,u
[a-z0-9A-Z] 匹配任意一个a-z或0-9或A-Z的字符

5 反义

代码/语法	说明
\W	匹配任意不是字母和数字的字符
\S	匹配任意不是空白符的字符
\D	匹配任意非数字的字符
\B	匹配不是单词开头或结束的位置
[^x]	匹配除了x以外的任意字符
[^aeiou]	匹配除了aeiou这几个字母以外的任意字符

6 分枝条件

就类似于或，比方说你想匹配两种号码的任意一种：一种是三位区号，8位本地号(如010-12345678)，一种是4位区号，7位本地号(0376-2233445)。可以用 0\d{2}[- ]?\d{8}|0\d{3}[- ]?\d{7}
两个条件用 | 隔开。使用分枝条件时，要注意各个条件的顺序，如\d{5}|\d{5}-\d{4}，那么就只会匹配5位的数字串(以及9位数字串的前5位)。原因是匹配分枝条件时，将会从左到右地测试每个条件，如果满足了某个分枝的话，就不会去再管其它的条件了。

7 分组

前面提到的重复部分的例子都是针对于单个字符进行的，那么如果要重复多个字符时，就要用到分组了。

例子

((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)：
((2[0-4]\d|25[0-5]|[01]?\d\d?).)这个整体（分组）重复三次（{3}），这是匹配一个IP地址。

8 向后引用

当使用一个小括号制定子表达式后，匹配到的文本希望在后面能用于匹配 ，默认的情况下，每个分组会自动有一个组号，组号从左到右，以分组的左括号为标志，第一个出现的为1，第二个为2，以此类推。后面要用的某族匹配的文本时，用\组名，如\1代表分组1匹配的文本。

代码/语法	说明
（exp）	匹配exp，并捕获文本到自动命名的组里（及将捕获的文本内容记录下来）
(?<name>exp)	匹配exp，并捕获文本到命名为name的组里（也可写成?'name'exp）
(?:exp)	匹配exp，不捕获匹配的文本，也不给次分组分配组号

例子

\b(\w+)\b\s+\1\b 匹配重复的单词，如： ha ha， go go。
\b(?<Word>\w+)\b\s+\k<Word>\b。同1，这里自己定义了分组名Word

9 零宽断言

像\b, ^ , $那样用于指定一个位置，这个位置要满足何种条件（断言），零宽断言用于指定在某些内容前面或者后面要满足什么条件。零宽断言有四种：零宽度正预测先行断言（断言位置的后面能匹配表达式exp）、零宽度正回顾后发断言（断言位置的前面能匹配表达式exp）、零宽度负预测先行断言（断言位置的后面不能匹配表达式exp）、零宽度负回顾后发断言（断言位置的前面不能匹配表达式exp）

代码/语法	说明
(?=exp)	匹配exp前面的位置
(?<=exp)	匹配exp后面的位置
(?!exp)	匹配后面跟的不是exp的位置
(?<!exp)	匹配前面不是exp的位置

例子

\b\w+(?=ing\b)，匹配以ing结尾的单词的前面部分(除了ing以外的部分)：I'm singing while you're dancing.时，它会匹配sing和danc。
(?<=\bre)\w+\b，匹配以re开头的单词的后半部分(除了re以外的部分)：reading a book时，它会匹配ading。
((?<=\d)\d{3})+\b，用它对1234567890进行查找时结果是234567890。
\b\wq(?!u)\w\b ，包含后面不是字母u的字母q的单词。
(?<![a-z])\d{7}匹配前面不是小写字母的七位数字。
(?<=<(\w+)>).*(?=</\1>)匹配不包含属性的简单HTML标签内里的内容。

10 贪婪与懒惰

贪婪就是匹配尽可能多的字符，懒惰就是匹配尽可能少的字符。例如对于字符串ababab，用a.b,将匹配到ababab，这个就是 贪婪匹配；用a.?，匹配到的就是ab，这就是懒惰匹配。正则表达式通常的行为是进行贪婪匹配，要将贪婪匹配转换成懒惰匹配，只要在限定符后面加上问好?就行了。以下是懒惰限定符

代码/语法	说明
*?	重复任意次，但尽可能少重复
+?	重复1次或更多次，但尽可能少重复
??	重复0次或1次，但尽可能少重复
{n,m}?	重复n到m次，但尽可能少重复
{n,}?	重复n次以上，但尽可能少重复

11 处理选项

名称	说明
IgnoreCase(忽略大小写)	匹配时不区分大小写。
Multiline(多行模式)	更改^和$的含义，使它们分别在任意一行的行首和行尾匹配，而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置.)
Singleline(单行模式)	更改.的含义，使它与每一个字符匹配（包括换行符\n）。
IgnorePatternWhitespace(忽略空白)	忽略表达式中的非转义空白并启用由#标记的注释。
ExplicitCapture(显式捕获)	仅捕获已被显式命名的组。

需要注意的是多行模式和单行模式并不冲突。

Java中使用正则表达式

String的match方法
判断字符串s是否匹配正则表达式reg : s.match（reg）//匹配返回false，否则返回true.
Pattern 类

import java.util.regex.*; 
class RegexExample1{
      public static void main(String args[]){
      String content = " hongdou " +
       "loves hongyu with all his heart and soul.";
      String pattern = "hongdou.*love.*hongyu"; 
      boolean isMatch = Pattern.matches(pattern, content);
      System.out.println("hondou loves hongyu ： " + isMatch);
   }
}

Matcher 类

import java.util.regex.*; 
class RegexExample2{
      public static void main(String args[]){
      String content = " hongdou " +
       "loves hongyu with all his heart and soul.";
      String pattern = "\\b\\w+\\b"; //匹配单词
      Matcher matcher= Pattern.compile(pattern).match(content);

      // 将所有符合正则表达式的子串打印
      while(matcher.find()) {
            System.out.println(matcher.group());
      }
   }
}