第二章爬虫相关基础知识

2018-08-27 本文已影响378人田同学的小迷妹儿

2.1 scrapy简介

做爬虫的时候，经常都会听到scrapy VS requests + beautifulsoup的组合，在本次分布式爬虫实现中只用scrapy而不用后者的原因是：

requests和beautifulsoup都是库，scrapy是一个框架，框架中可以应用requests等，可以集合很多第三方库

scrapy基于twisted，性能是最大的优势，异步IO框架

scrapy方便扩展，提供了很多内置的功能，提高开发速度

scrapy内置的css和xpath selector（对html或者xml进行分析）非常方便,beautifulsoup缺点就是慢

实践中还是会用到requests，但是不会用到beautifulsoup，因为它的功能可以直接使用scrapy的select完成。

2.2 互联网上网页分类

静态网页，事先在服务器端生成好的页面，内容是不会变的
动态网页，从服务器端取数据返回
webservice（restapi），也是属于动态网页的一种，只是通过ajax方式和后台交互的一种技术

2.3 爬虫能做什么

搜索引擎-百度，google，垂直领域搜索引擎（有一个目标，知道自己到底爬什么数据）

推荐引擎-今日头条（根据浏览习惯猜测感兴趣的内容进行推送）

机器学习的数据样本

数据分析-金融数据分析，舆情分析

2.4 正则表达式

提问：为什么有css或者xpath selector还要学正则表达式，有时候根据selector获得了整个标签内的内容，但是还要进行进一步的筛选，比如里面的数字信息等

可以帮我们判断某个字符串是否符合某一个模式

提取整个字符串里面的重要的部分信息

正则表达式里面的特殊字符

正则表达式中常用字符的用法介绍：
^ : 以什么字符开头
$ : 以什么字符结尾
. : 任意字符
* ：出现任意次数，0次或者更多次
()：还提取按模式取出来的子串。例如，".*(b.*b).*"表示不管前后是什么的两个b之间的子串
? ：非贪婪匹配模式，默认的情况下，匹配是贪婪模式，匹配最大长度
    对于 "bobby123"这个待匹配的，结果就是bb，而不是bobb，所以这就是贪婪，反向匹配（或者理解成直到结束符合的最后一个结果）
    非贪婪匹配就是从左边开始，只需要出现一个结果就可以了,".*?(b.*?b).*"表示对两个b从左到右只要出现一次就可
    ".*?(b.*b).*"第二个b不要问好，那么第二个b就是贪婪模式，会持续匹配到最后一个b
+ ：字符至少出现一次
{1}：前面的字符出现一次
{3，}: 要求前面的字符必须出现3次以上
{2,5}：前面的字符至少出现2次，最少出现5次
| ： 或的关系
[] : 中括号里面的内容只要满足任何一个即可，也可以是一个区间，中括号里面的^表示不等于，中括号里面的符号就是符号，不是特殊符号的含义
\s ：表示空格符
\S : 刚好与小s的意思相反，只要不是空格都可以
\w : 表示[A-Za-z0-9_]其中的任意一个字符
\W : 与\w的意思刚好相反
[\u4E00-\u9FA5] : unicode编码，含义是汉字，意思是只要出现汉字就可以。
\d : 表示数字

代码实例：

import re
"""
line = "study in 南京大学" # 待匹配的字符串
# # if line == "boooooooobaaby123":  # 一般匹配方法
regex_str = ".*?([\u4E00-\u9FA5]+大学)" # 定义模式，用到了^.*三种特殊字符
match_obj = re.match(regex_str,line)  # 接收匹配的结果
if match_obj:  # 参数第一个是模式字符串，第二个是待匹配的字符串
    print(match_obj.group(1))  # 匹配子串结果

"""

"""
? ：非贪婪匹配模式，匹配最大长度,默认的情况下，匹配是贪婪模式
()：还提取按模式取出来的子串。例如，".*(b.*b).*"表示不管前后是什么的两个b之间的子串，使用group()方法可以得到第一种子串的结果
    如果还有子串，则group(2)表示第二个子串结果，最外层括号为第一个
    对于 "bobby123"这个待匹配的，结果就是bb，而不是bobb，所以这就是贪婪，反向匹配
    非贪婪匹配就是从左边开始，只需要出现一个结果就可以了,".*?(b.*?b).*"表示对两个b从左到右只要出现一次就可
    ".*?(b.*b).*"第二个b不要?，那么第二个b就是贪婪模式，会持续匹配到最后一个b
"""

# 关于一个匹配多种格式输入能找出生日的模式
str = "XXX出生于2001年6月1日"
str = "XXX出生于2001/6/1"
str = "XXX出生于2001-6-1"
str = "XXX出生于2001-06-01"
str = "XXX出生于2001-06"
regex_str = ".*出生于(\d{4}[年/-]\d{1,2}([月/-]\d{1,2}|[月/-]$|$))"
match_obj = re.match(regex_str,str)
if match_obj:
    print(match_obj.group(1))

2.5 深度优先和广度优先算法

这一节主要了解网站的树结构，深度优先算法和实现，广度优先算法和实现

爬虫的基本原理，一个网站的url设计是分层的，树形结构，能够让我们爬取网站的时候更加有策略。在设计网站url时候是不会有环路的，但是在真实网站url链接的结构中，是有环路的。比如，从首页到达某个页面，这个页面上会有返回首页的链接。如果一直进入这个死循环，那么其他页面就爬取不到内容了。所以需要用到网页的去重。伯乐在线网站的文章爬取其中获取到的文章url是不会重复的，就不需要去重。但大多数文章都需要去重。

scrapy默认使用深度优先实现的，深度优先使用递归实现的，广度优先是采用队列来实现的。

2.6 爬虫去重策略

将访问过的url保存到数据库中,获取url时查询一下是否爬过了。虽然数据库中有缓存，但是每次都查询效率很低。

将url保存到set中。只需要O(1)的代价就可以查询到url，但是内存占用会越来越大
假设有1亿条url，那么就需要1亿 x 2byte x 50字符/1024/1024/1024=8G

url经过md5等方法哈希后保存到set中，将url压缩到固定长度而且不重复，scrapy实际上就是应用这种方法

用bitmap方法，将访问过的url通过hash函数映射到某一位，对内存压缩更大，缺点是冲突比较高

bloomfilter方法对bitmap进行改进，多重hash函数降低冲突可能性。即减少内存，又减少冲突。

2.7 弄清楚unicode编码和utf8编码

字符串编码，写文件以及网络传输过程中，调用某些函数，经常碰到提示编码错误。

看一下ASCII和unicode编码:

字母A用ASCII编码十进制是65，二进制 0100 0001

汉字"中" 已近超出ASCII编码的范围，用unicode编码是20013二进制是01001110 00101101

A用unicode编码只需要前面补0二进制是 00000000 0100 0001

乱码问题解决了，但是如果内容全是英文，unicode编码比ASCII编码需要多一倍的存储空间，传输也会变慢。所以此时出现了可变长的编码utf-8,把英文：1字节，汉字3字节，特别生僻的变成4-6字节，如果传输大量的英文，utf8作用就很明显。Unicode编码虽然占用空间但是因为占用空间大小等额，在内存中处理会简单一些。

关于windows下编码格式问题：

关于linux下的编码问题：

第二章爬虫相关基础知识

2.1 scrapy简介

2.2 互联网上网页分类

2.3 爬虫能做什么

2.4 正则表达式

2.5 深度优先和广度优先算法

2.6 爬虫去重策略

2.7 弄清楚unicode编码和utf8编码

猜你喜欢

热点阅读

第二章 爬虫相关基础知识

2.1 scrapy简介

2.2 互联网上网页分类

2.3 爬虫能做什么

2.4 正则表达式

2.5 深度优先和广度优先算法

2.6 爬虫去重策略

2.7 弄清楚unicode编码和utf8编码

猜你喜欢

热点阅读

第二章爬虫相关基础知识