凌晨一点肝文1920×1080高清必应壁纸爬取，只为爬虫小白们入

2021-07-29 本文已影响0人 Code皮皮虾

本文作者： Code皮皮虾，CSDN、掘金等各大平台同名，有兴趣的小伙伴可以点一波关注😁，感谢您的支持！
公众号：JavaCodes

爬虫仅供学习，其余概不负责！！！

前言

今天这个爬虫是一个很简单的爬虫，只要稍微有一点基础就能看懂，加油，奥里给，干就完事了！！！

在这里插入图片描述

网页分析

多页爬取URL部分

进入首页一看就知道是精品

在这里插入图片描述

滑到底部，好家伙，162页，(●ˇ∀ˇ●)，够我玩的了！

在这里插入图片描述

好了，话不多说，想要爬取，首先要弄懂URL

这是第一页的URL

在这里插入图片描述

第二页

在这里插入图片描述

第三页

在这里插入图片描述

这规律不用我多说把，根据当前页数修改p的值就OK了，但有的小伙伴可能会说：第一次没有p=1啊？

在这里插入图片描述

可以看见我们去手动进行p=1访问第一页也是可以成功访问的

在这里插入图片描述

小伙伴们要记号哦！

image.png

图片下载URL部分

本文对于数据解析使用的是Beautiful Soup，没了解过的小伙伴可见我的这篇好文！

<font size="4">Python爬虫利器之Beautiful Soup入门详解，实战总结！！！

打开控制台

可见，一个图片对应一个class值为item的div

在这里插入图片描述

标题

标题是在class值为item的div标签下的子class值为description的div标签下的h3标签中

在这里插入图片描述

下载URL

在这里插入图片描述

def getUrl(curPage,data,page_path):
    # BeautifulSoup进行解析
    data = BeautifulSoup(data,"html.parser")
    div_list = data.find_all(class_="item")
    for div in div_list:
        #拼接URL
        img_url = "https://bing.ioliu.cn" + div.find(class_="ctrl download")["href"]
        # 获取标题
        title = div.find(class_="description").find("h3").text
        # 因为保存图片名为标题，所以对标题的特俗字符进行处理
        title = replaceTitle(title)
        downLoadImg(curPage,title,img_url,page_path)

图片下载

def downLoadImg(curPage,title,img_url,page_path):
    print("正在爬取第" + str(curPage) + "页：" + title)
    # .content 二进制字节流
    img_res = requests.get(url=img_url,headers=headers).content
    # 保存为jpg图片，也可以为png哦！
    with open(page_path + "/" + title + ".jpg","wb") as f:
        f.write(img_res)
    f.close()

爬取结果（高清大图，看着都是享受）

因为测试，所以只怕爬取了两页

在这里插入图片描述

==都是1920×1080的哦！觉得不错的小伙伴可以给个三连，感谢支持😁==

在这里插入图片描述

最后

我是 Code皮皮虾，一个热爱分享知识的皮皮虾爱好者，未来的日子里会不断更新出对大家有益的博文，期待大家的关注！！！

创作不易，如果这篇博文对各位有帮助，希望各位小伙伴可以==一键三连哦！==，感谢支持，我们下次再见~~~

⭐完整代码可以加QQ：1130828717，并备注来源即可！⭐

分享大纲

大厂面试题 - 专题 - 简书 (jianshu.com)

Java从入门到入坟学习路线目录索引

 开源爬虫实例教程目录索引

凌晨一点肝文1920×1080高清必应壁纸爬取，只为爬虫小白们入

前言

网页分析

多页爬取URL部分

图片下载URL部分

图片下载

爬取结果（高清大图，看着都是享受）

最后

猜你喜欢

热点阅读