14_Python正则表达式与re模块_全栈开发学习笔记

2019-01-27 本文已影响0人豆行僧

1. 正则表达式的引出

范例1：
你怎么判断这个phone_number是合法的呢？
根据手机号码一共11位并且是只以13、14、15、18开头的数字这些特点，我们用python写了如下代码：

while True:
    phone_number = input('please input your phone number ： ')
    if len(phone_number) == 11 \
            and phone_number.isdigit()\
            and (phone_number.startswith('13') \
            or phone_number.startswith('14') \
            or phone_number.startswith('15') \
            or phone_number.startswith('18')):
        print('是合法的手机号码')
    else:
        print('不是合法的手机号码')

执行结果：

please input your phone number ： 1923
不是合法的手机号码
please input your phone number ： 18123456789
是合法的手机号码

范例2：
运用正则表达式的写法

import re
phone_number = input('please input your phone number ： ')
if re.match('^(13|14|15|18)[0-9]{9}$',phone_number):
        print('是合法的手机号码')
else:
        print('不是合法的手机号码')

执行结果：

please input your phone number ： 139
不是合法的手机号码

please input your phone number ： 18123456789
是合法的手机号码

1.1 正则表达式在线工具

正则表达式在线测试工具

1.2 正则表达式使用规范表

正则表达式使用规范表

2. RE模块

2.1 findall（重要）

想找到所有结果
范例：

import re

ret = re.findall('a', 'eva egon yuan')  # 返回所有满足匹配条件的结果,放在列表里
print(ret)

ret = re.findall('[a-z]+', 'eva egon yuan')  # 返回所有满足匹配条件的结果,放在列表里
print(ret)

执行结果：

['a', 'a']
['eva', 'egon', 'yuan']

2.2 search（重要）

想只找到一个结果

import re

ret = re.search('a', 'eva egon yuan')
if ret:
    print(ret.group())

ret = re.search('j', 'eva egon yuan')
if ret:
    print(ret.group())
#从前往后，找到一个就返回,返回的变量需要调用group才能拿到结果
#如果没有找到，那么返回None，调用group会报错

执行结果：

2.3 match（重要）

想在开头就匹配上

import re

ret = re.match('e', 'eva egon yuan')
if ret:
    print(ret.group())

ret = re.match('ev', 'eva egon yuan')
if ret:
    print(ret.group())

ret = re.match('[a-z]+', 'eva egon yuan')
if ret:
    print(ret.group())
# match是从头开始匹配，如果正则规则从头开始可以匹配上，就返回一个变量。
# 匹配的内容需要用group才能显示
# 如果没匹配上，就返回None，调用group会报错

执行结果：

e
ev
eva

2.4 split

当要分割一个字符串的时候

ret = re.split('[ab]', 'abcd')
# # 先按'a'分割得到''和'bcd',再对''和'bcd'分别按'b'分割
print(ret)

执行结果：

['', '', 'cd']

2.5 sub（常用）

当要替换一个字符串的时候

import re

ret = re.sub('\d', 'H', 'eva3egon4yuan4',1)
#将数字替换成'H'，参数1表示只替换1个
print(ret)

ret = re.sub('\d', 'H', 'eva3egon4yuan4')
#将数字替换成'H'，无参数1表示替换所有
print(ret)

执行结果：

evaHegon4yuan4
evaHegonHyuanH

2.6 subn

import re

ret = re.subn('\d', 'H', 'eva3egon4yuan49alex8')
#将数字替换成'H'，返回元组(替换的结果,替换了多少次)
print(ret)

执行结果：

('evaHegonHyuanHHalexH', 5)

2.7 compile

当正则反复使用且正则较长的时候

import re

obj = re.compile('\d{3}')
#将正则表达式编译成为一个 正则表达式对象，规则要匹配的是3个数字
ret = obj.search('abc123eeee') #正则表达式对象调用search，参数为待匹配的字符串
print(ret.group())

ret = obj.search('abcashgjgsdghkash456eeee3wr2') #正则表达式对象调用search，参数为待匹配的字符串
print(ret.group())

执行结果：

123
456

2.8 finditer

要找的东西特别多的时候

import re
ret = re.finditer('\d', 'ds3sy4784a')   #finditer返回一个存放匹配结果的迭代器
print(ret)  # <callable_iterator object at 0x10195f940>
print(next(ret).group())  #查看第一个结果
print(next(ret).group())  #查看第二个结果
print(next(ret).group()) 
print([i.group() for i in ret])  #查看剩余的左右结果

ret = re.finditer('\d', 'ds3sy4784a')
for i in ret:
    print(i.group())

执行结果：

<callable_iterator object at 0x000001A7D966F278>
3
4
7
['8', '4']

3
4
7
8
4

2.9 其他注意事项：优先级查询

search的分组优先

import re

ret = re.search('^[1-9](\d{14})(\d{2}[0-9x])?$','110105199912122277')
print(ret.group())
print(ret.group(1))    # 取第一个分组内的内容
print(ret.group(2))    # 取第二个分组内的内容

执行结果：

110105199912122277
10105199912122
277

findall取消分组优先

import re

ret = re.findall('www.(baidu|oldboy).com', 'www.oldboy.com')
print(ret)  # ['oldboy']     这是因为findall会优先把匹配结果组里内容返回,如果想要匹配结果,取消权限即可

ret = re.findall('www.(?:baidu|oldboy).com', 'www.oldboy.com')    # 使用?:用来取消分组优先
print(ret)  # ['www.oldboy.com']

执行结果：

['oldboy']
['www.oldboy.com']

split的优先级查询

import re

ret=re.split("\d+","eva3egon4yuan")
print(ret) #结果 ： ['eva', 'egon', 'yuan']

ret=re.split("(\d+)","eva3egon4yuan")
print(ret) #结果 ： ['eva', '3', 'egon', '4', 'yuan']

#在匹配部分加上（）之后所切出的结果是不同的，
#没有（）的没有保留所匹配的项，但是有（）的却能够保留了匹配的项，
#这个在某些需要保留匹配部分的使用过程是非常重要的。

执行结果：

['eva', 'egon', 'yuan']
['eva', '3', 'egon', '4', 'yuan']

2.10 爬虫例子1

import re
from urllib.request import urlopen

def getPage(url):
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    com = re.compile(
        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
        '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>', re.S)

    ret = com.finditer(s)
    for i in ret:
        yield {
            "id": i.group("id"),
            "title": i.group("title"),
            "rating_num": i.group("rating_num"),
            "comment_num": i.group("comment_num"),
        }


def main(num):
    url = 'https://movie.douban.com/top250?start=%s&filter=' % num
    response_html = getPage(url)
    ret = parsePage(response_html)
    print(ret)
    f = open("move_info7", "a", encoding="utf8")

    for obj in ret:
        print(obj)
        data = str(obj)
        f.write(data + "\n")
    f.close()

count = 0
for i in range(10):    # 10页
    main(count)
    count += 25

# url从网页上把代码搞下来
# bytes decode ——> utf-8 网页内容就是我的待匹配字符串
# ret = re.findall(正则，带匹配的字符串)  #ret是所有匹配到的内容组成的列表

执行结果：
生成一个move_info7的文件

{'id': '1', 'title': '肖申克的救赎', 'rating_num': '9.6', 'comment_num': '1283490人'}
{'id': '2', 'title': '霸王别姬', 'rating_num': '9.6', 'comment_num': '947284人'}
{'id': '3', 'title': '这个杀手不太冷', 'rating_num': '9.4', 'comment_num': '1177716人'}
{'id': '4', 'title': '阿甘正传', 'rating_num': '9.4', 'comment_num': '1011706人'}
{'id': '5', 'title': '美丽人生', 'rating_num': '9.5', 'comment_num': '592034人'}
...
{'id': '246', 'title': '荒岛余生', 'rating_num': '8.5', 'comment_num': '163691人'}
{'id': '247', 'title': '勇士', 'rating_num': '8.9', 'comment_num': '100117人'}
{'id': '248', 'title': '枪火', 'rating_num': '8.7', 'comment_num': '119054人'}
{'id': '249', 'title': '迁徙的鸟', 'rating_num': '9.1', 'comment_num': '57898人'}
{'id': '250', 'title': '攻壳机动队', 'rating_num': '8.9', 'comment_num': '72306人'}

2.11 爬虫简易例子2（不生成文件）

import re
from urllib.request import urlopen

def getPage(url):
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    ret = re.findall(
        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
       '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)评价</span>',s,re.S)
    return ret

def main(num):
    url = 'https://movie.douban.com/top250?start=%s&filter=' % num
    response_html = getPage(url)
    ret = parsePage(response_html)
    print(ret)

count = 0
for i in range(10):   # 10页
    main(count)
    count += 25

执行结果：

[('1', '肖申克的救赎', '9.6', '1283490人'), ('2', '霸王别姬', '9.6', '947284人'), ('3', '这个杀手不太冷', '9.4', '1177716人'), ('4', '阿甘正传', '9.4', '1011706人'), ('5', '美丽人生', '9.5', '592034人'), ('6', '泰坦尼克号', '9.3', '947372人'), ('7', '千与千寻', '9.3', '940412人'), ('8', '辛德勒的名单', '9.5', '530119人'), ('9', '盗梦空间', '9.3', '1023257人'), ('10', '机器人总动员', '9.3', '680657人'), ('11', '忠犬八公的故事', '9.3', '668630人'), ('12', '三傻大闹宝莱坞', '9.2', '917833人'), ('13', '海上钢琴师', '9.2', '763056人'), ('14', '放牛班的春天', '9.3', '633150人'), ('15', '大话西游之大圣娶亲', '9.2', '704012人'), ('16', '楚门的世界', '9.2', '687852人'), ('17', '龙猫', '9.2', '620786人'), ('18', '星际穿越', '9.2', '698752人'), ('19', '教父', '9.2', '463326人'), ('20', '熔炉', '9.3', '401050人'), ('21', '无间道', '9.1', '578870人'), ('22', '当幸福来敲门', '9.0', '742183人'), ('23', '疯狂动物城', '9.2', '776574人'), ('24', '触不可及', '9.2', '489976人'), ('25', '怦然心动', '9.0', '806397人')]
...

2.12 flags

flags有很多可选值：

re.I(IGNORECASE)忽略大小写，括号内是完整的写法
re.M(MULTILINE)多行模式，改变^和$的行为
re.S(DOTALL)点可以匹配任意字符，包括换行符
re.L(LOCALE)做本地化识别的匹配，表示特殊字符集 \w, \W, \b, \B, \s, \S 依赖于当前环境，不推荐使用
re.U(UNICODE) 使用\w \W \s \S \d \D使用取决于unicode定义的字符属性。在python3中默认使用该flag
re.X(VERBOSE)冗长模式，该模式下pattern字符串可以是多行的，忽略空白字符，并可以添加注释

使用方法：

import re
re.findall('\d','awir17948jsdc',re.S)
# 返回值：列表 列表中是所有匹配到的项

3. 练习

3.1 匹配标签

import re

ret = re.search("<(?P<tag_name>\w+)>\w+</(?P=tag_name)>","<h1>hello</h1>")
#还可以在分组中利用?<name>的形式给分组起名字
#获取的匹配结果可以直接用group('名字')拿到对应的值
print(ret.group('tag_name'))   #结果 ：h1
print(ret.group())             #结果 ：<h1>hello</h1>

ret = re.search(r"<(\w+)>\w+</\1>","<h1>hello</h1>")
#如果不给组起名字，也可以用\序号来找到对应的组，表示要找的内容和前面的组内容一致
#获取的匹配结果可以直接用group(序号)拿到对应的值
print(ret.group(1))
print(ret.group())  #结果 ：<h1>hello</h1>

执行结果：

h1
<h1>hello</h1>

h1
<h1>hello</h1>

3.2 匹配整数

import re

ret=re.findall(r"\d+\.\d+|(\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '2', '60', '40', '35', '5', '4', '3']
ret.remove('')
print(ret)

ret=re.findall(r"-?\d+\.\d*|(-?\d+)","1-2*(60+(-40.35/5)-(-4*3))")
print(ret) #['1', '-2', '60', '', '5', '-4', '3']
ret.remove("")
print(ret) #['1', '-2', '60', '5', '-4', '3']

执行结果：

['1', '2', '60', '', '5', '4', '3']
['1', '2', '60', '5', '4', '3']
['1', '-2', '60', '', '5', '-4', '3']
['1', '-2', '60', '5', '-4', '3']

3.3 数字匹配

1、 匹配一段文本中的每行的邮箱
      http://blog.csdn.net/make164492212/article/details/51656638

2、 匹配一段文本中的每行的时间字符串，比如：‘1990-07-12’；

   分别取出1年的12个月（^(0?[1-9]|1[0-2])$）、
   一个月的31天：^((0?[1-9])|((1|2)[0-9])|30|31)$

3、 匹配qq号。(腾讯QQ号从10000开始)  ［1,9］[0,9]{4,}

4、 匹配一个浮点数。       ^(-?\d+)(\.\d+)?$   或者  -?\d+\.?\d*

5、 匹配汉字。             ^[\u4e00-\u9fa5]{0,}$ 

6、 匹配出所有整数

4. 复习正则与re模块

# 正则表达式
# 字符组 [字符]
# 元字符
    # \w \d \s
    # \W \D \S
    # . 除了换行符以外的任意字符
    # \n \t
    # \b
    # ^ $ 匹配字符串的开始和结束
    # （） 分组  是对多个字符组整体量词约束的时候用的
                #re模块：分组是有优先的
                    # findall
                    # split
    # | 从左到右匹配，只要匹配上就不继续匹配了。所以应该把长的放前面
    # [^] 除了字符组内的其他都匹配
# 量词
    # *   0~
    # +   1~
    # ？  0~1
    # {n} n
    # {n,} n~
    # {n,m} n~m

# 转义的问题
# import re
# re.findall(r'\\s',r'\s')

# 惰性匹配
# 量词后面加问号
    # .*?abc 一直取遇到abc就停

# re模块
# import re
# re.findall('\d','awir17948jsdc',re.S)
# 返回值：列表 列表中是所有匹配到的项

# ret = search('\d(\w)+','awir17948jsdc'）
# ret = search('\d(?P<name>\w)+','awir17948jsdc'）
# 找整个字符串，遇到匹配上的就返回，遇不到就None
# 如果有返回值ret.group()就可以取到值
# 取分组中的内容 ： ret.group(1)   /  ret.group('name')

# match
# 从头开始匹配，匹配上了就返回，匹配不上就是None
# 如果匹配上了 .group取值

# 分割 split
# 替换 sub 和 subn
# finditer 返回迭代器
# compile 编译 ：正则表达式很长且要多次使用

14_Python正则表达式与re模块_全栈开发学习笔记

1. 正则表达式的引出

1.1 正则表达式在线工具

1.2 正则表达式使用规范表

2. RE模块

2.1 findall（重要）

2.2 search（重要）

2.3 match（重要）

2.4 split

2.5 sub（常用）

2.6 subn

2.7 compile

2.8 finditer

2.9 其他注意事项：优先级查询

2.10 爬虫例子1

2.11 爬虫简易例子2（不生成文件）

2.12 flags

3. 练习

3.1 匹配标签

3.2 匹配整数

3.3 数字匹配

4. 复习正则与re模块

猜你喜欢

热点阅读