人人都能发现王思聪的中奖名单有猫腻
前几天 iG 夺冠,王老板在微博抽奖,113 个 10000 元。

抽奖结果出来后,有心人爆出获奖的人数 113 里面有 112 个都是女性,这不免让人生疑,很多大号都发文章说了,我也就不凑热闹了。
为啥总有人这么牛逼,能发现这些别人看不到的事情。分析出这个结果需要什么能力呢?
写代码?数据分析?还是啥东西?
这篇文章,给大家分享一个,普通人也能分析出王思聪中奖名单猫腻的方法。
首先,要分析中奖名单,肯定要知道哪些人中奖了,这些信息哪里来呢?
这部分信息肯定是公开的,那是不公开,谁知道是不是内定呢?那结果去哪里看呢?
王思聪发的抽奖,他的微博肯定有入口,到微博主页搜索“王思聪”。

然后点进去,到他的微博主页,从最近的帖子看,果然看到一条他发的抽奖结果信息,里面有名单公示链接入口。

点这个链接,果然看到了所有中奖人的名单:

点进去第一个看看,到了他的微博主页,但是没有性别,虽然头像哪里有个箭头,但是不直观。继续观察,看到右下角一个「查看更多」

点进去看看,公开信息基本都可以看到。

好了,至此,我们已经研究出了找到中奖名单的详细信息路径,下面就是如果把这些信息统计下来了。
113 个,手动统计?太麻烦了!
编程?门槛太高!
有没有啥工具,可以帮我们呢?有!
话不多说,直接上步骤!
使用软件:webscraper
安装步骤,看视频:https://v.qq.com/x/page/j0753l7ki12.html
安装好以后,打开 webscraper,点击“导入Sitemap”

然后下面需要用到的一些代码,大家不用理会它什么意思。
{"_id":"wangsicong","startUrl":["http://event.weibo.com/yae/event/lottery/result?pageid=100140E1198435&id=3436763&f=weibo"],"selectors":[{"id":"people","type":"SelectorElementClick","parentSelectors":["_root"],"selector":"h4 a.S_txt1","multiple":true,"delay":"2000","clickElementSelector":"a.page.S_txt1:nth-of-type(n+3)","clickType":"clickOnce","discardInitialElements":false,"clickElementUniquenessType":"uniqueText"},{"id":"bbb","type":"SelectorLink","parentSelectors":["people"],"selector":"_parent_","multiple":false,"delay":0},{"id":"ccc","type":"SelectorLink","parentSelectors":["bbb"],"selector":"div.PCD_person_info a.WB_cardmore","multiple":false,"delay":"2000"},{"id":"ddd","type":"SelectorElement","parentSelectors":["ccc"],"selector":"div#plc_main","multiple":false,"delay":"3000"},{"id":"eee","type":"SelectorText","parentSelectors":["ddd"],"selector":"div.WB_cardwrap:nth-of-type(1) li.li_1:nth-of-type(1) span.pt_detail","multiple":false,"regex":"","delay":0},{"id":"address","type":"SelectorText","parentSelectors":["ddd"],"selector":"li.li_1:nth-of-type(2) span.pt_detail","multiple":false,"regex":"","delay":0},{"id":"sex","type":"SelectorText","parentSelectors":["ddd"],"selector":"li.li_1:nth-of-type(3) span.pt_detail","multiple":false,"regex":"","delay":0},{"id":"time","type":"SelectorText","parentSelectors":["ddd"],"selector":"li.li_1:nth-of-type(7) span.pt_detail","multiple":false,"regex":"","delay":0},{"id":"following","type":"SelectorText","parentSelectors":["ddd"],"selector":"td.S_line1:nth-of-type(1) strong.W_f18","multiple":false,"regex":"","delay":0},{"id":"followed","type":"SelectorText","parentSelectors":["ddd"],"selector":"td.S_line1:nth-of-type(2) strong.W_f18","multiple":false,"regex":"","delay":0},{"id":"content","type":"SelectorText","parentSelectors":["ddd"],"selector":"td.S_line1:nth-of-type(3) strong.W_f18","multiple":false,"regex":"","delay":0},{"id":"level","type":"SelectorText","parentSelectors":["ddd"],"selector":"p.level_info span.info:nth-of-type(1) span.S_txt1","multiple":false,"regex":"","delay":0},{"id":"vip","type":"SelectorText","parentSelectors":["ddd"],"selector":"p.info:nth-of-type(2)","multiple":false,"regex":"","delay":0},{"id":"birthday","type":"SelectorText","parentSelectors":["ddd"],"selector":"li.li_1:nth-of-type(4) span.pt_detail","multiple":false,"regex":"","delay":0}]}
需要输入 2 个信息:
1、复制粘贴,一字不差,如果提示错误,检查一下是不是一字不差,一字不差的意思是,一个标点符号都不能有误差。
2、英文字母,随便写。

填完以后,点击下面的 “Import Sitemap”。
然后,点击中间下拉菜单,再点击 “scrape”

然后,点击 “start scraping”

然后,会弹出一个窗口,你需要做的就是 —— 等,等他抓完。
这个时间,你可以在电脑上做其他任何事情,不要关掉这个弹出的窗口就行。
大概 10 - 20 分钟,就抓完了,具体时间根据具体情况定,抓完窗口就自动关闭了。
然后,你会看到下面这个图片,点击“refresh”。

等出现一大堆数据后,点击中间菜单栏,点击 “export data as CSV”。

点击 “download”。

ok,抓取到的数据,已经下载到电脑上了,你可以用 excel 打开,看看里面有些什么?

可以看到 113 条数据,就是 113 个中奖名单,有昵称,地点,性别,注册日期,关注,粉丝数,帖子数,微博等级,会员等级,个性签名等。
可能你看到的会和上面的截图有些不一样,因为我已经把无关的信息列删掉了,你直接下载下来是没有删掉的,你可以研究一下那些多余的数据是什么?其实也蛮有趣的!
我们可以很清楚的看到,性别那列除了一个男,其他都是女,已经达到我们的目的了,但是能不能看起来更美观一点?
听说 excel 的透视表可以做那种看起来很有逼格的图表,透视表,一听就很难的样子,实际上,我只花了 1 分钟,然后发现,没学会,就放弃了。
我心里有一个声音在响,一定有更简单的方法做这个,一定有!
然后我就开始冥想,果然,突然灵光一闪,我想到了谷歌表格,(其实是我试了好多工具,发现谷歌表格最好用),应该可以做到这个。
麻利的打开谷歌,搜索“谷歌表格”,第一个网站,点进去,先新建一个空白表格。
然后管他三七二十一,先把要处理的数据粘贴上去,我把性别这一列数据粘贴到刚才新建的空白表格里面,如下——

我想,谷歌的产品号称简洁易操作,我选中要处理的这列,应该会有一个按钮,我一按,它就自动帮我生成一个图标之类的东西,嗯,肯定是这样。
管他呢!我点!点!点……
果然,在插入这个菜单下面,发现了一个叫「图表」的选项 ——

管他呢,先看看效果 ——

哈哈,不错,果然成功了!
但是这种展示比例的数据,之前看别人的图片,用那种圆饼的样子好像比较舒服,应该有按钮可以选择图表类型吧,管他呢,到处点点试一下!
果然,在右边发现了一个选项!刚好有我想要的圆饼图。

管他呢,点了试试 ——

完美!
excel 里面的数据还有其他类型,都放上去做个图表吧,反正有那么多图标类型,都试一下,看哪个漂亮,就选哪个!
地域

上海、北京、广东人数最多,好像符合预期。
关注的人数

大部分用户关注的人都在 300 以内,还是蛮爱学习(八卦)的。
粉丝数

可以看到,粉丝数大于 5000 的只有 3个。
帖子

大部分人都是在 850 个帖子内。
微博等级

等级在 30 区间的最多,几乎占到了一半还多。
是否会员

会员 30%,非会员 70%,如果数据没有猫腻,这个比例可以用来评估微博的总体会员数,毕竟 2000w 的量足够覆盖到各个圈层,如果担心不准确,可以多找几个其他类别的数据,平均一下,也许王思聪的粉丝都比较有钱呢?
至此,借助上面的工具,我们实现了
1. 找到信息源头
2. 采集数据
3. 分析展示
这个完整流程。
我想说的是,上面这个例子,不仅仅是无聊凑热闹,这包含了面对一个信息,如何挖掘、整理、分析、展示的过程,可能中途你会遇到一些问题,但是大家注意到我上面的一个词没——
管他呢,先试试!
遇到问题不可怕,你遇到的问题,一定有解决方案。可怕的是,你小心翼翼,担心尝试的结果不如人意,浪费时间。
没事的,自己的主动尝试,后面的过程、结果,都会促进你的逻辑、思维更进一步,这个无形中锻炼出来的能力,在日后会带给你无穷的裨益。
在爬虫群里,我经常遇到一些朋友,遇到一个新网站,还没操作,就先来群里问,这个能不能抓?其实我内心是崩溃的,能不能抓,你应该自己先试一试,如果每次遇到新网站,都需要别人肯定后,才用勇气自己操作,那么永远也成长不了。
如果你下次遇到这种问题,自己还没试,就想着问别人,我希望你能想起来下面这句话——
没事,管他呢,先干!