小白菜学爬虫(三):第一个小爬虫

2017-05-01 本文已影响60人 everfight

向右奔跑老师写了《007 - Python简单爬虫 - 正则表达式》爬取了贴吧中的图片，留了一个任务是爬取花瓣上面的图片

实现步骤

根据老师的贴吧示例，简单分析花瓣爬虫的如下：
1、获取url对应的网页源代码
2、根据网页图片的网址特征，确定正则表达式
3、利用正则中的findall方法进行图片地址的提取
4、遍历图片地址用urlretrieve获取

分析过程：

老师文章中已经给出了正则表达式

<img src="([.\S])"

仔细分析发现，这种匹配无法区分图片跟头像。下载下来有很多无用的信息。

示意图

头像示意图

对比图片和头像的img标签，发现图片都有指定宽度width

主图

缩略图

而头像怎没有指定width

头像

故修改正则为： r'<img src="([.\S])" width' 去除掉没有width的img标签。

实现代码

# coding:utf-8
from urllib import request
import re

# 获取网页源代码的方法
def getHtml(url):
    page = request.urlopen(url)
    html = page.read().decode('utf-8') # Python3需要decode
    return html

html =  getHtml('http://huaban.com/pins/1120072731/')
reg = r'<img src="([.*\S]*)" width'
imgurls = re.findall(reg, html)  #用正则匹配到的图片路径的集合

x = 1
for imgurl in imgurls:
    imgurl ='http:'+ str(imgurl)
    print (imgurl)  # 打印查看一下是不是 每个图片的URL
    request.urlretrieve(imgurl, 'images2/%s.jpg' % x)
    print ("正在下载第 %d 张"%x)
    x +=1

注意事项

因为我用的版本是python3版本，代码存在些许差异,比方说：
1、在Python3中print为函数：print (imgurl)
2、urlopen在request下：request.urlopen(url)
修改完成后运行程序，报错：TypeError: cannot use a string pattern on a bytes-like object
查询资料得知python3中urllib.read返回的是bytes对象，不是string,得把它decode转换成string对象:page.read().decode('utf-8')

运行结果

采集结果

存在缺陷

现在采集到的还只是图片的缩略图，没有能够深入到画板的主页面去采集原图。后面考虑获取到画板缩略图的源地址，去源地址进行原图片的获取。