Python爬虫-豆瓣美女图

2018-09-20 本文已影响33人 wangjun

初识Python，本章主要做一下学习记录，如有错误，欢迎斧正

老司机发车了😊

爬虫步骤:

确定爬取目标
分析页面
抓取页面内容，解析目标字段
保存目标

1. 确定爬取目标

如题，今天需要爬取豆瓣美女图片，也就是这个页面

2. 分析页面

打开页面，分析页面元素，如图方法，可以得出需要下载的图片，在<img>标签里可以找到

分析

3. 抓取、解析

这里使requests库做网络请求，使用BeautifulSoup做解析

print('正在抓去取:'+page)
page_response = requests.get(page)
# 判断请求是否成功
if page_response.status_code == 200:
    # soup 解析html文件
    soup = BeautifulSoup(page_response.text,features='html.parser')
    # 获取html中的所有img标签内容
    images = soup.find_all('img')
    for img in images:
        # 获取img标签中的src标签
        image_url = img.get('src')

4. 下载保存

单纯的文件io，想具体了解可以看这里

print('正在下载:'+link)
global page_index
page_index += 1
image_response = requests.get(link)
# 先判断是否有图，下载保存就是单纯的文件写入
if image_response.status_code == 200:
    with open('./images/{}.jpg'.format(str(page_index)), 'wb') as f:
        f.write(image_response.content)

PS：

大致代码就这么点了，剩下的就是不同页面、不同类别的图片分析下载
爬虫说白了就是页面信息提取，做之前先想想清楚，动起手来就快了