正则表达式

2018-04-04  本文已影响0人  honDor

以前每次要用到正则表达式都会到处去找资料看看元字符、限定符有哪些,怎么去用。用的很不熟悉,于是特意花了一个晚上去好好学学。写这篇博客对学到知识做一个的总结,也给以后做个参考吧,毕竟如果不经常用的话可能又会忘掉。
正则在线测试工具

什么是正则表达式

正则表达式是用于进行文本匹配的工具,就把正则表达式理解成一个字符串匹配规则,可以根据这个规则在文本中找到你想要的字符串部分。
接下来直接从元字符、字符转义、重复、字符类、反义、分枝条件、分组、向后引用这些来做个小归纳。

1 元字符(metacharacter)

元字符 说明
. 匹配除换行以外的任意字符
\d 匹配数字
\s 匹配空白符(空格符' '、水平制表符'\t'、垂直制表符'\v'、换行符'\n'、回车符'\r')
\w 匹配字母\数字\下划线\汉字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束

例子

  1. \bhongyu\w*\b 匹配以hongyu开头的单词。
  2. ^\d{5,12}$ 匹配一个含有5到12位数字的字符串。

2 字符转义

当要匹配特殊字符本身时,用\来取消特殊字符的特殊意义

字符 表示
. \.
* \*
\ \\
^ \^
$ \$

例子

  1. c:\\windows匹配c:\windows。
  2. hongdou \^ hongyu匹配hongdou ^ hongyu。

3 重复

代码/语法 说明
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次

例子

  1. hi \w+ 匹配以hi 开头后面跟一个或多个字符的字符串。
  2. 134\d{8} 匹配以134开头的11位数字的字符串。

4 字符类

  1. [aeiou] 匹配 任何一个元音字母 a,e,i,o,u
  2. [a-z0-9A-Z] 匹配任意一个a-z或0-9或A-Z的字符

5 反义

代码/语法 说明
\W 匹配任意不是字母和数字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符

6 分枝条件

就类似于或,比方说你想匹配两种号码的任意一种:一种是三位区号,8位本地号(如010-12345678),一种是4位区号,7位本地号(0376-2233445)。可以用 0\d{2}[- ]?\d{8}|0\d{3}[- ]?\d{7}
两个条件用 | 隔开。使用分枝条件时,要注意各个条件的顺序,如\d{5}|\d{5}-\d{4},那么就只会匹配5位的数字串(以及9位数字串的前5位)。原因是匹配分枝条件时,将会从左到右地测试每个条件,如果满足了某个分枝的话,就不会去再管其它的条件了。

7 分组

前面提到的重复部分的例子都是针对于单个字符进行的,那么如果要重复多个字符时,就要用到分组了。

例子

  1. ((2[0-4]\d|25[0-5]|[01]?\d\d?).){3}(2[0-4]\d|25[0-5]|[01]?\d\d?):
    ((2[0-4]\d|25[0-5]|[01]?\d\d?).)这个整体(分组)重复三次({3}),这是匹配一个IP地址。

8 向后引用

当使用一个小括号制定子表达式后,匹配到的文本希望在后面能用于匹配 ,默认的情况下,每个分组会自动有一个组号,组号从左到右,以分组的左括号为标志,第一个出现的为1,第二个为2,以此类推。后面要用的某族匹配的文本时,用\组名,如\1代表分组1匹配的文本。

代码/语法 说明
(exp) 匹配exp,并捕获文本到自动命名的组里(及将捕获的文本内容记录下来
(?<name>exp) 匹配exp,并捕获文本到命名为name的组里(也可写成?'name'exp)
(?:exp) 匹配exp,不捕获匹配的文本,也不给次分组分配组号

例子

  1. \b(\w+)\b\s+\1\b 匹配重复的单词,如: ha ha, go go。
  2. \b(?<Word>\w+)\b\s+\k<Word>\b。同1,这里自己定义了分组名Word

9 零宽断言

像\b, ^ , $那样用于指定一个位置,这个位置要满足何种条件(断言),零宽断言用于指定在某些内容前面或者后面要满足什么条件。零宽断言有四种:零宽度正预测先行断言(断言位置的后面匹配表达式exp)、零宽度正回顾后发断言(断言位置的前面匹配表达式exp)、零宽度负预测先行断言(断言位置的后面不能匹配表达式exp)、零宽度负回顾后发断言(断言位置的前面不能匹配表达式exp)

代码/语法 说明
(?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置

例子

  1. \b\w+(?=ing\b),匹配以ing结尾的单词的前面部分(除了ing以外的部分):I'm singing while you're dancing.时,它会匹配sing和danc。
  2. (?<=\bre)\w+\b,匹配以re开头的单词的后半部分(除了re以外的部分):reading a book时,它会匹配ading。
  3. ((?<=\d)\d{3})+\b,用它对1234567890进行查找时结果是234567890。
  4. \b\wq(?!u)\w\b ,包含后面不是字母u的字母q的单词。
  5. (?<![a-z])\d{7}匹配前面不是小写字母的七位数字。
  6. (?<=<(\w+)>).*(?=</\1>)匹配不包含属性的简单HTML标签内里的内容。

10 贪婪与懒惰

贪婪就是匹配尽可能多的字符,懒惰就是匹配尽可能少的字符。例如对于字符串ababab,用a.b,将匹配到ababab,这个就是 贪婪匹配;用a.?,匹配到的就是ab,这就是懒惰匹配。正则表达式通常的行为是进行贪婪匹配,要将贪婪匹配转换成懒惰匹配,只要在限定符后面加上问好?就行了。以下是懒惰限定符

代码/语法 说明
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复

11 处理选项

名称 说明
IgnoreCase(忽略大小写) 匹配时不区分大小写。
Multiline(多行模式) 更改^和$的含义,使它们分别在任意一行的行首和行尾匹配,而不仅仅在整个字符串的开头和结尾匹配。(在此模式下,$的精确含意是:匹配\n之前的位置以及字符串结束前的位置.)
Singleline(单行模式) 更改.的含义,使它与每一个字符匹配(包括换行符\n)。
IgnorePatternWhitespace(忽略空白) 忽略表达式中的非转义空白并启用由#标记的注释。
ExplicitCapture(显式捕获) 仅捕获已被显式命名的组。

需要注意的是多行模式和单行模式并不冲突

Java中使用正则表达式

  1. String的match方法
    判断字符串s是否匹配正则表达式reg : s.match(reg)//匹配返回false,否则返回true.
  2. Pattern 类
import java.util.regex.*; 
class RegexExample1{
      public static void main(String args[]){
      String content = " hongdou " +
       "loves hongyu with all his heart and soul.";
      String pattern = "hongdou.*love.*hongyu"; 
      boolean isMatch = Pattern.matches(pattern, content);
      System.out.println("hondou loves hongyu : " + isMatch);
   }
} 
  1. Matcher 类
import java.util.regex.*; 
class RegexExample2{
      public static void main(String args[]){
      String content = " hongdou " +
       "loves hongyu with all his heart and soul.";
      String pattern = "\\b\\w+\\b"; //匹配单词
      Matcher matcher= Pattern.compile(pattern).match(content);

      // 将所有符合正则表达式的子串打印
      while(matcher.find()) {
            System.out.println(matcher.group());
      }
   }
} 
上一篇 下一篇

猜你喜欢

热点阅读