python学习天生不是作曲家前端优化

3.正则表达式

2016-07-20  本文已影响594人  KaelQ

1.普通字符

2.元字符

每一个语言或平台都可能会有不同的元字符,具体情况具体分析

元字符 含义
. 匹配一个字符(除了换行符\n)
[] 匹配里面一个可选字符
^ 匹配词首
$ 匹配词尾

注:[a-z],[A-Z],[0-9]对应小写字符,大写字母,数字。

这是最基本的四个元字符,有了这四个,几乎所有的正则表达式都能写出来了。比如:
手机号码的正则表达式为:

[1][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9][0-9]
元字符 含义
{n} 前面的字符重复n次
{n,m} 前面的字符重复从n次到m次
{n,} 前面的字符重复n次到无限次

这样,手机号码的正则表达式为:

[1][0-9]{10}
a[b]{0,1}c

这样觉得又有点不划算,0到1还要用{},所以又有了新的元字符

元字符 含义
* {0,}
+ {1,}
? {0,1}

这样子上述正则表达式就可以很开心的写成:

ab?c

是不是感觉好很多呢?

然而新的问题来了,我想匹配一个不是abc三个字母的字母,正则应该是这样:

[d-z]

但是与我表达的意思就是毫无关系了,这个正则将否定变成了肯定,这时候引入一个新的元字符:

元字符 含义
[^] 不包含里面内容

上述正则就变成了

[^a-c]
元字符 含义
\d [0-9]
\w [A-Za-z0-9]

这样手机号正则就可以更简便了:

[1]\d{10}
元字符 含义
(?:pattern) 正向预查的正向匹配,等效于
(?=pattern) 正向预查的正向匹配,匹配后面跟着pattern的字符串
(?!pattern 正向预查的正向不匹配,匹配后面不跟着pattern的字符串
(?<=pattern) 反向预查的反向匹配,匹配前面是pattern的字符串
(?<!pattern) 反向预查的反向不匹配,匹配前面不是pattern的字符串

文本如下:

java6 java7

正则表达式如下:

java(?:6|7)
java(?=6)
java(?!6)

(?<=j)a
(?<!j)a

查找结果如下:

java6 java7
java(java6前的java)
java(java7前的java)

a a(java6和java7 j后面的a)
a a(java6和java7 v后面的a)

文本:

hadkfaldafxxlxxjlkjasldfjaslkxxlovexxalfjlkxxyouxxkla

正则表达式如下:

xx.*xx
xx.*?xx

查找结果如下:

xxlxxjlkjasldfjaslkxxlovexxalfjlkxxyouxx
xxlxx xxlovexx xxyouxx

量词默认是贪婪模式,但是当?出现在量词后面时,量词变成了非贪婪模式,能认出自己人了,哈哈~

量词即{},包括?,+,*

3.总结速查表

元字符 含义
. 匹配一个字符(除了换行符\n)
[] 匹配里面一个可选字符
^ 匹配词首
$ 匹配词尾
{n} 前面的字符重复n次
{n,m} 前面的字符重复从n次到m次
{n,} 前面的字符重复n次到无限次
* {0,}
+ {1,}
? {0,1}
[^] 不包含里面内容
\d [0-9]
\w [A-Za-z0-9]
(?:pattern) 正向预查的正向匹配,等效于
(?=pattern) 正向预查的正向匹配,匹配后面跟着pattern的字符串
(?!pattern 正向预查的正向不匹配,匹配后面不跟着pattern的字符串
(?<=pattern) 反向预查的反向匹配,匹配前面是pattern的字符串
(?<!pattern) 反向预查的反向不匹配,匹配前面不是pattern的字符串
量词? 非贪婪模式

4.注意 (持续更新)

4.1 .不能匹配换行符\n

import re
s='''xxI
xxabcxxlove
xxdefxxyouxx'''
a=re.findall('xx(.*?)xx',s)
b=re.findall('xx(.*?)xx',s,re.S)#使用re.S
print(a)
print(b)

结果为:

['abc', 'def']
['I\n', 'love\n', 'you']

5.问题

5.1 邮箱正则

^[^@\.].*[^\.\+]?@[^\.]?.*\..*[^@\.]$

5.2 手机号码正则

86[1]\d{10}

5.3 验证账号是否合法

[A-Za-z][\w_]{3,15}
上一篇 下一篇

猜你喜欢

热点阅读