Python爬虫-豆瓣美女图

2018-09-20  本文已影响33人  wangjun

初识Python,本章主要做一下学习记录,如有错误,欢迎斧正

老司机发车了😊

爬虫步骤:

1. 确定爬取目标

如题,今天需要爬取豆瓣美女图片,也就是这个页面

2. 分析页面

打开页面,分析页面元素,如图方法,可以得出需要下载的图片,在<img>标签里可以找到

分析
3. 抓取、解析

这里使requests库做网络请求,使用BeautifulSoup做解析

print('正在抓去取:'+page)
page_response = requests.get(page)
# 判断请求是否成功
if page_response.status_code == 200:
    # soup 解析html文件
    soup = BeautifulSoup(page_response.text,features='html.parser')
    # 获取html中的所有img标签内容
    images = soup.find_all('img')
    for img in images:
        # 获取img标签中的src标签
        image_url = img.get('src')
4. 下载保存

单纯的文件io,想具体了解可以看这里

print('正在下载:'+link)
global page_index
page_index += 1
image_response = requests.get(link)
# 先判断是否有图,下载保存就是单纯的文件写入
if image_response.status_code == 200:
    with open('./images/{}.jpg'.format(str(page_index)), 'wb') as f:
        f.write(image_response.content)
PS:

大致代码就这么点了,剩下的就是不同页面、不同类别的图片分析下载
爬虫说白了就是页面信息提取,做之前先想想清楚,动起手来就快了

上一篇下一篇

猜你喜欢

热点阅读