3.正则表达式
2016-07-20 本文已影响594人
KaelQ
1.普通字符
- 就是普通的a-z,A-z,0-9等等字符。
2.元字符
- 有一些特殊含义的字符。
每一个语言或平台都可能会有不同的元字符,具体情况具体分析
元字符 | 含义 |
---|---|
. | 匹配一个字符(除了换行符\n) |
[] | 匹配里面一个可选字符 |
^ | 匹配词首 |
$ | 匹配词尾 |
注:[a-z],[A-Z],[0-9]对应小写字符,大写字母,数字。
这是最基本的四个元字符,有了这四个,几乎所有的正则表达式都能写出来了。比如:
手机号码的正则表达式为:
[1][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9]
- 但是这样写太不方便了,而且显的很蠢0.0,所以有更多的元字符诞生了。
元字符 | 含义 |
---|---|
{n} | 前面的字符重复n次 |
{n,m} | 前面的字符重复从n次到m次 |
{n,} | 前面的字符重复n次到无限次 |
这样,手机号码的正则表达式为:
[1][0-9]{10}
- 但是这时候要对字符串'abc'和'ac'进行匹配,这时候正则表达式为:
a[b]{0,1}c
这样觉得又有点不划算,0到1还要用{},所以又有了新的元字符
元字符 | 含义 |
---|---|
* | {0,} |
+ | {1,} |
? | {0,1} |
这样子上述正则表达式就可以很开心的写成:
ab?c
是不是感觉好很多呢?
然而新的问题来了,我想匹配一个不是abc三个字母的字母,正则应该是这样:
[d-z]
但是与我表达的意思就是毫无关系了,这个正则将否定变成了肯定,这时候引入一个新的元字符:
元字符 | 含义 |
---|---|
[^] | 不包含里面内容 |
上述正则就变成了
[^a-c]
- 又来一个新问题,有个程序员矫情了,觉的输入[0-9],[A-Za-z0-9]就是浪费生命,于是又引入了新的元字符:
元字符 | 含义 |
---|---|
\d | [0-9] |
\w | [A-Za-z0-9] |
这样手机号正则就可以更简便了:
[1]\d{10}
- 最后一个问题来了,我想匹配java6中的java,并不想匹配java7中的java,该怎么办?哈哈,于是又引入了新的元字符:
元字符 | 含义 |
---|---|
(?:pattern) | 正向预查的正向匹配,等效于 |
(?=pattern) | 正向预查的正向匹配,匹配后面跟着pattern的字符串 |
(?!pattern | 正向预查的正向不匹配,匹配后面不跟着pattern的字符串 |
(?<=pattern) | 反向预查的反向匹配,匹配前面是pattern的字符串 |
(?<!pattern) | 反向预查的反向不匹配,匹配前面不是pattern的字符串 |
文本如下:
java6 java7
正则表达式如下:
java(?:6|7)
java(?=6)
java(?!6)
(?<=j)a
(?<!j)a
查找结果如下:
java6 java7
java(java6前的java)
java(java7前的java)
a a(java6和java7 j后面的a)
a a(java6和java7 v后面的a)
- 哈哈,认为是最后一个了吧,我又发现了一个有用的东西,贪婪模式和非贪婪模式!这次没有新的元符号引入,但是主角是 ?,有了它就是非贪婪模式,没有它就是贪婪模式啦,具体如下~
文本:
hadkfaldafxxlxxjlkjasldfjaslkxxlovexxalfjlkxxyouxxkla
正则表达式如下:
xx.*xx
xx.*?xx
查找结果如下:
xxlxxjlkjasldfjaslkxxlovexxalfjlkxxyouxx
xxlxx xxlovexx xxyouxx
量词默认是贪婪模式,但是当?出现在量词后面时,量词变成了非贪婪模式,能认出自己人了,哈哈~
量词即{},包括?,+,*
3.总结速查表
元字符 | 含义 |
---|---|
. | 匹配一个字符(除了换行符\n) |
[] | 匹配里面一个可选字符 |
^ | 匹配词首 |
$ | 匹配词尾 |
{n} | 前面的字符重复n次 |
{n,m} | 前面的字符重复从n次到m次 |
{n,} | 前面的字符重复n次到无限次 |
* | {0,} |
+ | {1,} |
? | {0,1} |
[^] | 不包含里面内容 |
\d | [0-9] |
\w | [A-Za-z0-9] |
(?:pattern) | 正向预查的正向匹配,等效于 |
(?=pattern) | 正向预查的正向匹配,匹配后面跟着pattern的字符串 |
(?!pattern | 正向预查的正向不匹配,匹配后面不跟着pattern的字符串 |
(?<=pattern) | 反向预查的反向匹配,匹配前面是pattern的字符串 |
(?<!pattern) | 反向预查的反向不匹配,匹配前面不是pattern的字符串 |
量词? | 非贪婪模式 |
4.注意 (持续更新)
4.1 .不能匹配换行符\n
- 使用.时不能匹配换行符,所以有时候会出现一些问题。
python的解决方案如下:
import re
s='''xxI
xxabcxxlove
xxdefxxyouxx'''
a=re.findall('xx(.*?)xx',s)
b=re.findall('xx(.*?)xx',s,re.S)#使用re.S
print(a)
print(b)
结果为:
['abc', 'def']
['I\n', 'love\n', 'you']
5.问题
5.1 邮箱正则
- 合法E-mail地址:
- 必须包含一个并且只有一个符号“@”
- 第一个字符不得是“@”或者“.”
- 不允许出现“@.”或者.@
- 结尾不得是字符“@”或者“.”
- 允许“@”前的字符中出现“+”
- 不允许“+”在最前面,或者“+@”
- @之后至少有一个.
^[^@\.].*[^\.\+]?@[^\.]?.*\..*[^@\.]$
5.2 手机号码正则
- 合法手机号码正则:
1、长度13位;
2、以86的国家码打头;
3、手机号码的每一位都是数字。
86[1]\d{10}
5.3 验证账号是否合法
- 验证帐号是否合法
验证规则:字母、数字、下划线组成,字母开头,4-16位。
[A-Za-z][\w_]{3,15}