python爬取表情包
2019-03-13 本文已影响52人
Jupiter_19
这几日在知乎上看到个话题—有哪些沙雕表情包。就想着利用Python把图片保存到本地而非手动下载。然而尝试一下后发现,知乎已经不让第三方爬虫工具抓取了。于是就换了豆瓣里的一个网页:https://www.douban.com/group/topic/128794851/。成功实现了爬取表情包。
作为一个学数学的人,平时不会去使用re、request等网页的库。大概梳理一下代码思路。
- 获取网页源代码,即右键查看源码(我没学过html语言,所以也看不太懂)。
url = 'https://www.douban.com/group/topic/128794851/'
data = requests.get(url).text
网页源码
- 获取图片的url。大概看一下源码内容,能发现表情包的url位于‘img src=’和‘width’之间,处理一下文本内容,即可得到全部表情包的url了。
fir = re.findall(r'img src=".*?" width', data)
fir = str(fir).replace('img src="','').replace('" width','')
fir = fir.split(',')[0:-1]
- 保存图片到本地文件夹。
response = requests.get(url)
img_data = response.content
image = Image.open(BytesIO(img_data))
image.save(img_path)