正则表达式
概念
正则表达式是用于字符串匹配规则的工具
规则
不使用元字符
可以不使用元字符,直接匹配。如模式hi,匹配所有连续的h、i两个字母,包括hi、hill等
\b
\b是一个元字符,代表着单词的开头或结尾,也就是单词的分界处
如\bhi\b,匹配单词hi,而不能匹配hill
\d
匹配0-9 这十个数字
{n}
前面的一个字符重复n次
如:0\d{2}-\d{8} 表示以0开头,后面跟着两个数字,然后是一个-,最后是8个数字。如021-7800545
\s
匹配任意的空白符,包括空格、制表符(Tab)、换行符、中文全角空格等
\w
匹配字母、数字、下划线、汉字
^
匹配字符串的开头。^hi表示以hi开头
$
匹配字符串的结尾
字符转义
如果想查找元字符本身的话,比如查找.、*、\等。这时使用\进行转义,表示把这些字符当做普通字符对待,如.,*,\等
一定范围的字符
\d表示数字的集合,\s表示空白。因为已经 有了这些集合的元字符,所以表达起来比较容易。
但如果是如元音字母aeiou这样没有预定义元字符的字符集合呢?
只需要使用[aeiou]
[aeiou]匹配a、e、i、o、u中的任意一个
[.?!]匹配.、?、!中的任意一个
[0-9]和\d的含义相同
例子:(?0\d{2}[) -]?\d{8}
字符(出现一次或零次,之后是0加任意两位数字,之后是[、空格或-,它们出现零次或一次,之后是八位数字。
可以匹配三种格式的电话号码如:(010)12345678、010-12345678、010 12345678
分支条件
上一部分最后的例子中,该表达式也可以匹配想(010-12345678这样的不正确的格式。
分支条件是指同时制定几种规则,只要匹配其中一种就可以。
使用方式:用|将不同规则分开
如:
0\d{2}-\d{8}|(0\d{2})\d{8}|0\d{2} \d{9} 将上述三种规则分开写,就不会有匹配错误的问题了
分组
重复一组用括号括起来的规则
如:(\d{1,3}.){3}\d{1,3} 表示以1到3个数字和一个点组成的规则,重复3次,再加三个数字。即一个简单的ip地址匹配表达式。
因为IP地址的每一部分都不能超过255,故正确的IP地址匹配表达式为:
(([01]?\d\d|2[0-4]\d|25[0-5]).){3}([01]?\d\d|2[0-4]\d|25[0-5].)
重复次数
- *重复零次或更多次
- +重复一次或更多次
- ? 重复零次或一次
- {n} 重复n次
- {n,} 重复n次或更多次
- {n,m} 重复n到m次
反义
\W 匹配任意不是字母、数字、下划线、汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符、
\B 匹配不是单词开头或结尾的位置
[^x]匹配除了x以外的任意字符
[^aeiou]匹配除了aeiou这几个字母以外的任意字符
例子
\ba\w*\b 以a开头的单词,后面可以是字母、数字、下划线、汉字
\d+ 1个或多个连续的数字
\b\w{6}\b 长度为6的任意单词
在Java中使用正则表达式
import java.util.regex.*;
String patternString = "^[1-9]\\d{5}(18|19|([23]\\d))\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9Xx]";
Pattern pattern = Pattern.compile(patternString);
Matcher matcher = pattern.matcher("370830199319166831");
if(matcher.matches()) {
System.out.println("是正确的身份证号");
}