python 3.x 爬虫基础---正则表达式

2019-04-18 本文已影响71人 9ba4bd5525b9

前言

正则表达式是对字符串的一种逻辑公式，用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则的字符串”，此字符串用来表示对字符串的一种“过滤”逻辑。正在在很多开发语言中都存在，而非python独有。对其知识点进行总结后，会写一个demo。

1.正则表达式

python是自1.5开始引进re模块进行处理正则的。我先把正则的匹配规则总结一下，再总结re模块相应的方法。

1.1匹配规则

对于一个特殊字符在正则表达式中是不能正常识别的，如果接触过其他语言我们就这到有一个叫做转移字符的东西的存在，在特殊字符前加用反斜杠接口。比如\n换行\\为反斜杠，在这不再累述。下面来介绍一下re这个模块。

1.2.re模块

此模块主要方法如下

re.match()#尝试从字符串的起始位置匹配一个模式(pattern)，如果不是起始位置匹配成功的话，match()就返回None

re.search()#函数会在字符串内查找模式匹配,只要找到第一个匹配然后返回，如果字符串没有匹配，则返回None。

re.findall()#遍历匹配，可以获取字符串中所有匹配的字符串，返回一个列表。

re.compile()#编译正则表达式模式，返回一个对象的模式。（可以把那些常用的正则表达式编译成正则表达式对象，这样可以提高一点效率。）

re.sub()#使用re替换string中每一个匹配的子串后返回替换后的字符串。

re.subn()#返回替换次数

re.split()#按照能够匹配的子串将string分割后返回列表。

1.2.1.re.match()

方法：re.match(pattern, string, flags=0)#pattern:正则表达式(或者正则表达式对象)string:要匹配的字符串flags:修饰符

先看一个最简单的用法

结果：

匹配规则就不在累述，以上需要注意的是

(1).group()表示的是返回正则匹配的结果

(2).span()表示返回正则匹配的范围

使用：

以上我们已经知道re.matcha()的具体方法，那么接下我来看一下具体使用，对此我们要理解以下几种匹配的感念。

1.泛匹配（.*）：匹配所有字符

它的结果是和上面的输出结果完全一样的。

2.目标匹配（（））：将需要的字符匹配出来

结果

以上可以看出：

(1)（）匹配括号内的表达式，也表示一个组

(2)+ 匹配1个或多个的表达式

* 匹配0个或多个的表达式

(3).group(1)—输出第一个带有（）的目标

3.贪婪匹配(.*())：匹配尽可能少的的结果

结果

4.贪婪匹配（.*?()）：匹配尽可能多的结果

结果

以上3,4两个匹配方式请尽量采用非贪婪匹配

5.其他

换行：

结果：

转义字符：

结果：

其中re.I使匹配对大小不敏感,re.S匹配包括换行符在内的所有字符,\进行处理转义字符。匹配规则中有详细介绍。

1.2.2.re.search()

方法：

re.search(pattern, string, flags=0)#pattern:正则表达式(或者正则表达式对象)string:要匹配的字符串flags:修饰符

#re.match()和re.search()用法类似唯一的区别在于re.match()从字符串头开始匹配,若头匹配不成功,则返回None

对比一下与match()

结果：

可以看出两个使用基本一致，search从头开始匹配，如果匹配不到就返回none.

1.2.3.re.findall()

方法：re.finditer(pattern, string, flags=0)#pattern:正则表达式(或者正则表达式对象)string:要匹配的字符串flags:修饰符

与re.search()类似区别在于re.findall()搜索string，返回一个顺序访问每一个匹配结果（Match对象）的迭代器。找到 RE 匹配的所有子串，并把它们作为一个迭代器返回。

结果：

1.2.4.re.compile()

编译正则表达式模式，返回一个对象的模式。

方法：re.compile(pattern,flags=0)#pattern:正则表达式(或者正则表达式对象);flags:修饰符

看一个demo

结果：

我们可以看出compile 我们可以把它理解为封装了一个公用的正则，类似于方法，然后功用。

1.2.5.其他

re.sub 替换字符

方法：re.sub(pattern, repl, string, count=0, flags=0)#pattern:正则表达式(或者正则表达式对象)repl:替换的字符串string:要匹配的字符串count:要替换的个数flags:修饰符

re.subn 替换次数

方法：re.subn(pattern, repl, string, count=0, flags=0)#pattern:正则表达式(或者正则表达式对象)repl:替换的字符串string:要匹配的字符串count:要替换的个数flags:修饰符

re.split()分隔字符

方法

re.split(pattern, string，[maxsplit])#正则表达式（或者正则表达式对象）string:要匹配的字符串；maxsplit：用于指定最大分割次数，不指定将全部分割

2.案例：爬取猫眼信息，写入txt,csv,下载图片

2.1.获取单页面信息

对于上面的信息我们可以看出是存到一个对象中那么接下来我们应该把它们存到文件当中去。

2.2.保存文件

我写了两种方式保存到txt和csv这些在python都有涉及，不懂得可以去翻看一下。

2.2.1.保存到txt

结果：

以上看到并非按顺序排列因为我用的是多线程。

2.2.2.保存到csv

结果：

那么还有一部就是我们要把图片下载下来。

2.2.3.下载图片

2.3.整体代码

这里面又到了多线程在这不在叙述后面会有相关介绍。这个demo仅做一案例，主要是对正则能有个认知。上面写的知识点有不足的地方望大家多多指教。