爬虫我的Python自学之路

用python写网络爬虫一

2017-03-22  本文已影响0人  枫灬叶

书名:《用python写网络爬虫》,通过阅读并记录去学习,如果文章有什么错误的地方还希望指正
本文参考了http://blog.csdn.net/u014134180/article/details/55506864

1、背景调研

1.1检查robots.txt

大多数网站都会定义robots.txt文件,这样可以让爬虫了解爬取该网站
时存在哪些限制。这些限制虽然仅仅作为建议给出

url+"/robot.txt"的方式在浏览器中进行访问
例:http://www.jianshu.com/robot.txt

1.2检查网站地图

网站提供的Sitemap 文件(即网站 地图 ) 可以帮助爬虫定位网站 最新的内容
一般在robots.txt给出

例: http://example.webscraping.com/sitemap.xml

1.3 估算网站的大小

使用site 关键词 对我们的示例网站 进行搜索的结果 , 即在
Google 中搜索 site: exam ple. webscra ping. com o

1.4检查网站所用技术

使用builtwith 模块

import builtwith
strd=builtwith.parse('http://www.jianshu.com')

1.5 寻找网站所有者

使用whois模块

 import whois
 print whois.whois('jianshu.com')

2编写第一个网络爬虫

抓取网站,首先需要下载包含感兴趣的数据的网页,这过程被称为爬(crawling)
常用的爬取网站的常见方法:

2.1下载网页

使用requests模块下载
关于requests的使用
http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
下载网页

import requests
def download(url):
    print('Downloading:', url)
    html =requests.get(url).text
    return html
#print(download1('https://www.jianshu.com'))

1重试下载
当服务器过载返回503 Service Unavailable错误,我们可以尝试重新下载。如果是404 Not Found这种错误,说明网页目前并不存在,尝试两次请求也不会有不同结果。

import requests
def download(url,num_retries=2):
    response = requests.get(url)
    if num_retries > 0:
        if 500 <=response.status_code < 600:
            return download(url, num_retries-1)
    return response.text

2.设置用户代理(user_agent)
一些网站还会封禁这个默认用户代理。所以我们要重新设置用户代理

import requests
def download(url, user_agent='jians', num_retries=2):
    headers = {'User-agent': 'my-app/0.0.1'}
    response = requests.get(url, headers=headers)
    if num_retries > 0:
        if 500 <=response.status_code < 600:
            return download(url, num_retries-1)
    return response.text

2.2网站地图爬虫

在 第一个简单的爬虫中 , 我们将 使 用示例网站 robots. tx t文 件中发现的网站 地图来下载所有网页。为 了解析网站 地图 , 我们将会使用一个简单的
正则表达 式 , 从 < loc > 标签中提 取 出URL。 而 在
下 一 章中 , 我们将会 介绍一种更加健壮的解析方法 一- css 选择器

# 网站地图爬虫,需要有sitemap.xml文件
def crawl_sitemap(url):
    # download the sitemap file
    sitemap = download(url)
    # extract the sitemap links
    links = re.findall('<loc>(.*?)</loc>', sitemap)
    # download each link
    for link in links:
        print link
#调用crawl_sitemap
# url_str = "http://example.webscraping.com/sitemap.xml"
# crawl_sitemap(url_str)

2.3 ID遍历爬虫


由于这些URL只有后缀不同,所有我们可以遍历ID下载所有国家页面。

def id_by_download():
    # 实现 的爬虫连续5次下载错误才会停止遍历,这样很大
    # 程度降低了遇到被删除记录时过早停止遍历的风险
    max_errors = 5
    num_errors = 0
    for page in range(20):
        url = 'http://example.webscraping.com/view/-%d' % page
        html = download(url)
        if html is None:
            num_errors += 1
            if num_errors == max_errors:
                break
        else:
            num_errors = 0

不足:在爬取 网站 时, 遍历ID是一个很便捷 的方法,但是和网站 地图爬虫一样,
这种方法也无法保证始终可用。 比如, 一些网站 会检查页面 别名是否满足预
期 ,如 果不是 , 则会 返回 404 Not Found 错 误 。 而另一些网站
则会使用非连续大数作为ID , 或是不使用数值作为ID, 此 时 遍历就难以发挥其作用了。

2.4 链接爬虫

通过跟踪所有链接的方式, 我们可以很容易地下载整个网站 的页面。但是,
这种 方法会 下载大量我们并不需要的网页

import re
def link_crawler(seed_url, link_regex):
    '''craw from the given seed URL following links matched by link_regex'''
    crawl_quene = [seed_url]
    while crawl_quene:
        url = crawl_quene.pop()
        html = download(url)
        for link in get_links(html):
            if re.match(link_regex, link):
                crawl_quene.append(link)
def get_links(html):
    # a regular expression to extract all link from the webpage
    webpage_regex = re.compile('<a[^>]+href=["\'](.*?)["\']', re.IGNORECASE)
    # list of all link from the webpage
    return webpage_regex.findall(html)
#link_crawler('http://example.webscraping.com/', '/(index|view)')

由于/index/1是相对链接,浏览器可以识别,但urllib2无法知道上下文,所有我们可以用urlparse模块来转换为绝对链接。修改代码link_crawler方法,导入

import urlparse
import re
def link_crawler(seed_url, link_regex):
    '''craw from the given seed URL following links matched by link_regex'''
    crawl_quene = [seed_url]
    while crawl_quene:
        url = crawl_quene.pop()
        html = download(url)
        for link in get_links(html):
            if re.match(link_regex, link):
                link = urlparse.urljoin(seed_url,link)
                crawl_quene.append(link)

避免重复爬取相 同 的 链接, 我 们 需要记录哪些
链接己 经 被爬取过。 下 面是修改后的 link crawler函数,己具备存储己发
现URL 的功能, 可以避免重复下载 ,
修改修改代码link_crawler方法

import urlparse
import re
def link_crawler(seed_url, link_regex):
    '''craw from the given seed URL following links matched by link_regex'''
    crawl_quene = [seed_url]
    seen = set(crawl_quene)
    while crawl_quene:
        url = crawl_quene.pop()
        html = download(url)
        for link in get_links(html):
            if re.match(link_regex, link):
                link = urlparse.urljoin(seed_url,link)
                if link not in seen:
                    crawl_quene.append(link)```
###高级功能
####解析robots.txt
robotparser模块首先加载robots.txt文件,然后通过can_fetch()函数确定指定的用户代理是否允许访问网页,通过python 自带robotparser解析robots.txt文件

import robotparser
def get_robots(url):
# 解析robots.txt
rp = robotparser.RobotFileParser()
rp.set_url(urlparse.urljoin(url, "/robots.txt"))
rp.read()
return rp
url = 'http://example.webscraping.com'
rp = get_robots(url)
user_agent = 'GoodCrawler'
rp.can_fetch(user_agent, url)

####下载限速
如果我们 爬 取 网站 的速度过快,就会 面 临 被封禁或是造成服务 器过载的 风
险。为了降低这些风险,我们可以在两次下载之间添加 延 时,从而对爬 虫 限
速。下面是实现了该功能的 类的代码。

class Throttle:
'''add a delay between downloads to the same domain'''
def init(self, delay):
# amount of delay between downloads for each domain
self.delay = delay
self.domain = {}

def wait(self, url):
    domain = urlparse.urlparse(url).netloc
    last_accessed = self.domain.get(domain)
    if self.delay > 0 and last_accessed is not None:
        sleep_secs = self.delay - (datetime.datetime.now()-last_accessed).seconds
        if sleep_secs > 0:
            time.sleep(sleep_secs)
    self.domain[domain] = datetime.datetime.now()

Throttle类记录每个上次访问的时间,如果当前时间距离上次访问时间小于指定延

时,则执行睡眠操作。我们可以在每次下载之前调用Throttle对爬虫进行限速。

throttle = Throttle(delay)

throttle.wait(url)

result =download(url,headers,proxy=proxy,num_retries=num_retries)

####避免爬虫陷阱
目前,我们的爬虫会跟踪所有之前没有访问过的链接。但是,一些网站 会
动态 生 成页面内容, 这样就会出现无限多 的网 页。 比如, 网站 有一个在线日
历功能,提供 了 可以访问下个月和 下 一年 的 链接,那么下个月 的页面 中同样
会 包含访问再下个月 的 链接, 这样页面就会 无止境地链接下 去。 这种 情况被
称为 爬虫 陷阱。
想要避免陷入 爬虫陷阱,一个简单的方 法是记录到达当前网 页经过 了多少
个链接, 也就是深度。 当到达最大深度 时 , 爬虫就不 再 向队列 中 添加该网 页
中的 链接了。 要实现这一功能, 我们需 要 修改 see n 变量。
该 变量原先只记录访问过的网页链接, 现在修改为一个字典, 增 加了页面深度 的 记录。
修改link_crawler方法

def link_crawler(seed_url, link_regex,max_depth=2):
'''craw from the given seed URL following links matched by link_regex'''
crawl_queue = [seed_url]
seen = {seed_url: 0}
while crawl_queue:
url = crawl_queue.pop()
html = download(url)
depath = seen[url]
if depath != max_depth:
for link in get_links(html):
if re.match(link_regex, link):
link = urlparse.urljoin(seed_url, link)
if link not in seen:
seen[link] = depath+1
crawl_queue.append(link)
else:
print('Bldoked by robots.txt:', url)

####最终版本
这个高级链接爬虫的完整 源代码可以在 https: //bitbucket. org/
wswp/code /src/t ip/chapter01/link_cra wler3.p y下载得到
上一篇 下一篇

猜你喜欢

热点阅读