正则表达式

2019-04-26  本文已影响0人  第四单元

概念

正则表达式是用于字符串匹配规则的工具

规则

不使用元字符

可以不使用元字符,直接匹配。如模式hi,匹配所有连续的h、i两个字母,包括hi、hill等

\b

\b是一个元字符,代表着单词的开头或结尾,也就是单词的分界处
如\bhi\b,匹配单词hi,而不能匹配hill

\d

匹配0-9 这十个数字

{n}

前面的一个字符重复n次
如:0\d{2}-\d{8} 表示以0开头,后面跟着两个数字,然后是一个-,最后是8个数字。如021-7800545

\s

匹配任意的空白符,包括空格、制表符(Tab)、换行符、中文全角空格等

\w

匹配字母、数字、下划线、汉字

^

匹配字符串的开头。^hi表示以hi开头

$

匹配字符串的结尾

字符转义

如果想查找元字符本身的话,比如查找.、*、\等。这时使用\进行转义,表示把这些字符当做普通字符对待,如.,*,\等

一定范围的字符

\d表示数字的集合,\s表示空白。因为已经 有了这些集合的元字符,所以表达起来比较容易。
但如果是如元音字母aeiou这样没有预定义元字符的字符集合呢?
只需要使用[aeiou]
[aeiou]匹配a、e、i、o、u中的任意一个
[.?!]匹配.、?、!中的任意一个
[0-9]和\d的含义相同

例子:(?0\d{2}[) -]?\d{8}
字符(出现一次或零次,之后是0加任意两位数字,之后是[、空格或-,它们出现零次或一次,之后是八位数字。
可以匹配三种格式的电话号码如:(010)12345678、010-12345678、010 12345678

分支条件

上一部分最后的例子中,该表达式也可以匹配想(010-12345678这样的不正确的格式。
分支条件是指同时制定几种规则,只要匹配其中一种就可以。
使用方式:用|将不同规则分开
如:
0\d{2}-\d{8}|(0\d{2})\d{8}|0\d{2} \d{9} 将上述三种规则分开写,就不会有匹配错误的问题了

分组

重复一组用括号括起来的规则
如:(\d{1,3}.){3}\d{1,3} 表示以1到3个数字和一个点组成的规则,重复3次,再加三个数字。即一个简单的ip地址匹配表达式。
因为IP地址的每一部分都不能超过255,故正确的IP地址匹配表达式为:
(([01]?\d\d|2[0-4]\d|25[0-5]).){3}([01]?\d\d|2[0-4]\d|25[0-5].)

重复次数

反义

\W 匹配任意不是字母、数字、下划线、汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符、
\B 匹配不是单词开头或结尾的位置
[^x]匹配除了x以外的任意字符
[^aeiou]匹配除了aeiou这几个字母以外的任意字符

例子

\ba\w*\b 以a开头的单词,后面可以是字母、数字、下划线、汉字
\d+ 1个或多个连续的数字
\b\w{6}\b 长度为6的任意单词

在Java中使用正则表达式

import java.util.regex.*;

String patternString = "^[1-9]\\d{5}(18|19|([23]\\d))\\d{2}((0[1-9])|(10|11|12))(([0-2][1-9])|10|20|30|31)\\d{3}[0-9Xx]";
Pattern pattern = Pattern.compile(patternString);
Matcher matcher = pattern.matcher("370830199319166831");
if(matcher.matches()) {
    System.out.println("是正确的身份证号");
}

参考资料:正则表达式30分钟入门教程

上一篇下一篇

猜你喜欢

热点阅读