python爬虫实战——人人网大作战

2017-11-03  本文已影响61人  光的文明

这两天实在是被毕设折磨的够呛!哎,经常在卡壳,写一点,再卡壳,再写一点的循环中慢慢前进。老崔死催着十号前交稿,真是焦头烂额。今天就换换脑子,做一点好玩的事儿。干什么呢?来爬一爬人人网吧,看看能不能找出一些有意思的东西来。

人人网作为一个过气的社交网站,其用户数据还是比较可观的。之所以选择人人网的一个原因是,人人网不像QQ空间一样中二:你可以禁止你的好友访问你的空间。那么,开始吧!

由于人人网没有类似于微博大厅的功能,所有的数据必须要登录以后才能看到。我又不是什么黑客干坏事,光明正大的去,就登陆我自己的账号。

由于不知道人人网这个登录后台是怎么做的,所以登陆的同时我们需要抓个包,看看HTTP头里面带了多少cookie。在这里笔者用的抓包软件是wireshark。


真是巧,第12个数据包就是登录包。右键看一下完整的通信记录。


由于不知道这一大串cookie中具体是哪一个或哪几个做登录验证用,就干脆把这些cookie全部拷贝到程序中去。至于下面的那一串POST方式提交的数据就不用管了。


接着,我们观察一下人人网的个人界面吧,看看有没有我们感兴趣的信息。随意找一个好友的主页登陆进去,我们可以发现人人网可以查看任意好友的全部好友信息。如下图,我选取了我人人好友中的一个公众号“交大有思”来举例子。


通过浏览器右键查看网页源代码我们可以发现网页中并没有这些好友信息的静态信息,说明这些好友信息一定是通过网页上的脚本代码动态获取的。怎么证实呢?我们还是来抓个包吧。通常这种异步获取信息的脚本代码都是通过调用网站后台的某个api来实现的,有些不注重用户隐私的公司就直接把这些信息在网络上明文传送。像这种api通常都会有一个比较通俗易懂的名字,例如getfriendslist这种。


果然,在第443个数据包中找到了一个疑似的。从命名上看这太像我们所要找的那个接口了。我们右键看一下完整的通信记录,来确认一下我们的猜想。


服务器针对这个接口调用返回的数据是一堆乱码。但是光凭这一堆乱码我们也能看得出来,人人网的这个接口的数据是完全没有加密的,之所以出现乱码是因为编码格式的错误。这并不是什么大问题,通常用浏览器调用一次就能够解决。我们仔细观察了这个接口所需要的参数以后直接用浏览器调用看看结果。在这里笔者调用接口打印自己好留列表的前20个好友的基本信息。


如上图,人人网果然是这样一种节奏:所有的用户信息完全不加密,赤身裸体地在网络上飞奔,而且还是这么格式良好的json数据,真是呵呵呵!这个接口的调用很简单,只用传入人人网的ID,数据的分页信息和一些登录验证信息就可以了。接下来,我们用python程序来调用这个接口试试看,还是调用接口打印我自己的全部人人好友。


如图,整个接口调用成功,json数据解析成功。该函数通过传入用户的ID值可以打印出这个用户全部的好友基本信息,为了保护隐私笔者将用户ID数据全部隐去了。仔细观察一下这些用户基本数据吧,上面除了一些不知所云的字段以外还有一些很有意思的信息。


这些信息中包含了用户的大头像图片地址,小头像图片地址,真实的姓名,与查询用户是否为好友关系,基础的学校地区信息等等。一些牛掰的黑客仅仅依靠这些基础的数据完全就可以完成一次社会工程学实践,这对个人信息保护来说是一个很大的安全隐患。OK,接下来我们来验证一下著名的“六度分割”理论吧,这理论是说在现代社会,不论两个人物理上相隔多远,都可以通过至多六个人建立联系。今天,我们就来遍历一下我们全部好友的好友,看一下这个人际关系树仅仅深入到第二层能达到多大的规模。在编程上,我们使用递归。使用一个集合来存储所有遍历到的用户信息。由于集合的特殊性质:集合不能存储两个相同的数据。因此我们就避免了重复统计一个人信息的问题。实验的结果非常惊人,仅仅是笔者人人网好友圈的71个好友的所有好友就达到了12726人,几乎是以指数2的级别向上增长。


都到这儿了就再进一步吧,通过csv文件将所有的这些用户信息保存下来,并且将笔者71个好友的全部好友的用户头像都保存下来。



接下来,我们还可以遍历所有好友的相册。人人网在这里又为爬虫提供了非常好的便利机会。不但用户的相册信息在网页上静态写明,毫无加密,而且还是便于解析的json格式。以下是笔者公众号好友“交大有思”的全部相册信息:


获取了这些信息后只用解析json数据,然后就可以对相册中的相片进行下载了。噗~,写到这笔者就不打算继续下去了。这次的博客就到这儿吧!以后看到好玩的网站还是会用爬虫爬一爬。

上一篇 下一篇

猜你喜欢

热点阅读