Python爬虫爬取Instagram一个博主所有图片和视频

2018-08-31 本文已影响866人林清猫耳

前言

Instagram上有很多非常好看的照片，而且照片类型非常全，照片质量也很高。

但是有个问题，不管是在移动端还是在网页端都不能通过长按或者右键方式进行图片保存。

看了下知乎问题 怎么下载保存 Instagram 上喜欢的图片到手机? 下的回答，基本都要复制图片链接到其它软件或者微信公众号之类的来获取源图片。

于是我就想能不能写一个爬虫，传入一个喜欢的博主账号名称然后爬取该博主所有的照片和视频。

下面是折腾一天后的成果：

所需工具和整个爬虫结构

在写这个爬虫会用到的工具有requests，re，json, pyquery(也可以选择其它的解析工具)。爬虫分为两个部分，第一个部分获取到图片链接，第二个部分将图片保存到本地。这里会接触到javascript动态页面的技术。

获取网页源代码

首先要确保自己对 https://www.instagram.com 发起的请求能返回正常的响应内容。正常的响应内容包括HTML，Json字符串，二进制数据（如图片类型）等类型的内容。
这里不介绍怎么翻墙，能翻墙的小伙伴可以先测试一下，headers请求头要加上user-agent，cookie加上自己的cookie，根据自己的情况决定是否要加代理参数proxies，如下图返回的是正常的HTML：

InstagramHTML

分析页面

选择一位自己喜欢的博主然后分析Instagram的响应内容HTML。
首先检查index页面的HTML文件中是否存在图片链接。

缩略图
可以看到index页面的HTML文件中是有图片链接的，但是复制该图片div的类名v1Nh3 kIKUG _bz0w的字符串去Source Tab页下查找，发现并没有结果，发现里面的内容都是动态生成的。

Source

右键查看网页源代码或者按Ctrl+U，然后Ctrl+F搜索刚看见的图片链接，可以发现网页源代码中有图片链接，不过数据是通过Ajax异步请求过来的。

Find URL

可以发现被script包裹在里面的windows._shareData，图片的链接就在里面，并且数据格式还是 json 格式的。将其单独提取出来放在在线代码格式化工具 format 一下：

json数据块

发现真正的图片链接 display_url 就在该 nodes 数据中。

该部分代码实现

获取HTML

获取urls

到这里确实已经拿到了该Ins博主的照片url，但是这里只有12条，那么其它的照片url在哪里呢？

分析XHR

通过鼠标下拉会不断加载新的图片，这些图片也是通过Ajax异步请求过来的，于是我去查看XHR请求：

XHR

一种开炉石卡包开出橙卡的 "传说！" 的感觉！发现在鼠标下拉页面的时候，会不断加载出新的XHR请求，并且这些XHR请求的响应内容都是Json字符串，于是复制XHR请求的url重复操作一下果然得到了第13张图片开始的url。

urls

这里新的问题出现了，一条XHR请求还是只有12张图片啊，这位博主一共有近500条帖子，仅为了12张图片就要去看XHR请求复制url一次也太反人类了。于是开始分析XHR请求的url。

分析XHR请求的URL

下面是其中一条XHR请求的url：
https://www.instagram.com/graphql/query/?query_hash=a5164aed103f24b03e7b7747a2d94e3c&variables=%7B%22id%22%3A%221664922478%22%2C%22first%22%3A12%2C%22after%22%3A%22AQBJ8AGqCb5c9rO-dl2Z8ojZW12jrFbYZHxJKC1hP-nJKLtedNJ6VHzKAZtAd0oeUfgJqw8DmusHbQTa5DcoqQ5E3urx0BH9NkqZFePTP1Ie7A%22%7D

其中的参数有：

query_hash: a5164aed103f24b03e7b7747a2d94e3c
variables: {
"id":"1664922478",
"first":12,
"after":"AQBJ8AGqCb5c9rO-dl2Z8ojZW12jrFbYZHxJKC1hP-nJKLtedNJ6VHzKAZtAd0oeUfgJqw8DmusHbQTa5DcoqQ5E3urx0BH9NkqZFePTP1Ie7A"}

这里的id应该就是该博主的一个id序列，而这里的first参数则应该是每次XHR请求返回的图片url的数量。于是我在XHR请求的url中将该参数从12改成了24，发现真的返回了24条图片url！
我心想这下问题该解决了吧，只要把first改成图片总数-12不就可以爬取所有图片了。

count
如图，我发现XHR请求的响应内容里直接就有count参数，于是我定位到count将XHR请求的url里的first参数改成count-12，然后开始美滋滋得下载图片。
第一次下载只有62张图片，于是新建一个文件夹重新下载，还是只有62张图片。其中前12张是从HTML文件总取得的，那么后面这50张图片应该就是该XHR请求返回的urls。
这下我意识到，一次XHR请求返回的Json字符串最多只能容纳50条图片url，所以这个办法是行不通的。
这时候我注意到url里的after参数，我开始猜测这个参数应该是包含该响应内容一串加密数据。那么我要怎么去找这串加密数据呢，怎么去找每一条XHR请求的url里的after参数的值呢，这串加密数据又具体是什么作用呢？

经过一段 在哪里，在哪里找到你 的寻寻觅觅后，我发现在XHR的响应内容Json字符串不起眼的下面：

page_info

我的内心："金色传说！"
看参数名end_cursor和has_next_page就大概猜到了这两个参数的作用（所以参数名起名还是很重要滴）。
经过一系列在 Jupyter notebook 上的测试发现：

每一条XHR请求的url只有after参数不同，其它三个参数query_hash、id、first都相同。当然不同博主的id肯定不一样，first参数也无关紧要默认的值是12就行
游标end_cursor是下一条XHR请求的url里的after参数的值
has_next_page是对该url是否是最后一条url的判定布尔值

也就是说这些看似一团乱码的XHR请求的url其实都是有序的，从包含第13-24张帖子内容的url开始，按博主发帖子的时间顺序构成XHR请求的url序列，每条url的响应内容包含12条图片或视频链接。
所以可以通过一个while循环不断发起XHR请求直到参数has_next_page参数的值为False时退出循环，并在每次的响应内容里提取12张图片的url和参数end_cursor、has_next_page的值。

一些小问题

爬虫到了这里其实已经完成的差不多了，但还是有一些小问题。

问题1：初始游标

现在可以通过XHR请求的响应内容提取下一条XHR请求的url参数值以进行全部图片的url提取。但是每一条XHR请求的url包含的都是下一条XHR请求的url参数值，那么第一条XHR请求的url参数怎么确定？
一种办法是查看博主Ins主页，按F12，选中 Network --> XHR 下拉，手动复制粘贴第一条XHR请求的url中的after参数值。（我一开始也是这么做的）
但是！这样还是太反人类了！一开始的HTML文件中一定有该cursor！嗯，果不其然：