python爬虫-爬取百万美女图片

2018-05-15 本文已影响24人 Python资料

当你发现某个网站上有大量的美女图片，又非常想看，怎么办，网页上看？每次看的时候都得加载吧！No，你可以把这些图片都保存到本地，然后，在你想看的时候就可以随时看了，哈哈！多的不说。下面就来上代码：

1,导入库文件:

# -*- coding:utf-8 -*-# 通过requests模块下载网络内容import requests#引入正则表达式模块,时间模块import re, time

2,找到有美女图片的链接地址：

defgetpageurl():page_list = []#进行列表页循环forpageinrange(1600,1999): url="http://jandan.net/ooxx/page-"+str(page)+"#comments"#把生成的url加入到page_list中page_list.append(url)returnpage_list

3，利用正则表达式，从网页内容中匹配出要下载图片的链接地址：

defgeturllist(url):url_list=[]printurl#head是我们自己构造的一个字典，里面保存了user-agenthead = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.111 Safari/537.36'}# html = requests.get('http://jp.tingroom.com/yuedu/yd300p/')html = requests.get(url, headers = head) text = html.text#正则匹配，匹配其中的图片pic_urls = re.findall('
', text)foriinpic_urls: image = i +'.jpg'print'image url = '+ image url_list.append(image)returnurl_list

另外大家如果想要学习Python可以加我的裙：227+435+450，小编整理了2018最新的学习资料和大神分享直播。欢迎还没有找到方向的小伙伴来学习。

你可能已经注意到了这么一句：

html = requests.get(url, headers = head) ：这里不仅传入了url，而且还传入了一个头，对了，这里一定要非常注意，如果你不设置请求头，很多网站都设置了权限，可以检测当前的操作是不是在浏览器中完成的。知道了这一点，就简单多了。我们只需要伪装一下，伪装成是浏览器中的操作，那么怎么得到这个头的内容呢？

如果你是chrome浏览器那么简单了，打开开发者调试模式，选中network,重新刷新一下网页，你会得到类似下面的东西：

好了，浏览器的参数得到了，你可以进行欺骗了。

4，上面的两个方法足以让你抓取到图片，那么具体怎么使用这两个方法呢？看下面：

if__name__ =='__main__': pageurl = getpageurl()[:-1]#进行图片下载forurlinpageurl: url_list = geturllist(url) i =0foreachinurl_list: print'now downloading:'+eachpic = requests.get(each) name=str(time.time())[:-3]+"_"+re.sub('.+?/','',each) fp =open('pic//'+ name ,'wb') fp.write(pic.content) fp.close() i+=1

好了，大功告成，你可以运行下试试，如果缺少相应的库，可以先进行安装，这里库安装的方法不做介绍了。

调试环境：Mac , pyCharm

python爬虫-爬取百万美女图片

猜你喜欢

热点阅读

python爬虫-爬取 百万美女图片

猜你喜欢

热点阅读

python爬虫-爬取百万美女图片