@产品工具癖成长日记

人人都能发现王思聪的中奖名单有猫腻

2018-11-14  本文已影响710人  明白1

前几天 iG 夺冠,王老板在微博抽奖,113 个 10000 元。

image.png

抽奖结果出来后,有心人爆出获奖的人数 113 里面有 112 个都是女性,这不免让人生疑,很多大号都发文章说了,我也就不凑热闹了。

为啥总有人这么牛逼,能发现这些别人看不到的事情。分析出这个结果需要什么能力呢?

写代码?数据分析?还是啥东西?

这篇文章,给大家分享一个,普通人也能分析出王思聪中奖名单猫腻的方法。

首先,要分析中奖名单,肯定要知道哪些人中奖了,这些信息哪里来呢?

这部分信息肯定是公开的,那是不公开,谁知道是不是内定呢?那结果去哪里看呢?

王思聪发的抽奖,他的微博肯定有入口,到微博主页搜索“王思聪”。

image.png

然后点进去,到他的微博主页,从最近的帖子看,果然看到一条他发的抽奖结果信息,里面有名单公示链接入口。

image.png

点这个链接,果然看到了所有中奖人的名单:


image.png

点进去第一个看看,到了他的微博主页,但是没有性别,虽然头像哪里有个箭头,但是不直观。继续观察,看到右下角一个「查看更多」

image.png

点进去看看,公开信息基本都可以看到。

image.png

好了,至此,我们已经研究出了找到中奖名单的详细信息路径,下面就是如果把这些信息统计下来了。

113 个,手动统计?太麻烦了!
编程?门槛太高!
有没有啥工具,可以帮我们呢?有!

话不多说,直接上步骤!

使用软件:webscraper

安装步骤,看视频:https://v.qq.com/x/page/j0753l7ki12.html

安装好以后,打开 webscraper,点击“导入Sitemap”

image.png

然后下面需要用到的一些代码,大家不用理会它什么意思。

{"_id":"wangsicong","startUrl":["http://event.weibo.com/yae/event/lottery/result?pageid=100140E1198435&id=3436763&f=weibo"],"selectors":[{"id":"people","type":"SelectorElementClick","parentSelectors":["_root"],"selector":"h4 a.S_txt1","multiple":true,"delay":"2000","clickElementSelector":"a.page.S_txt1:nth-of-type(n+3)","clickType":"clickOnce","discardInitialElements":false,"clickElementUniquenessType":"uniqueText"},{"id":"bbb","type":"SelectorLink","parentSelectors":["people"],"selector":"_parent_","multiple":false,"delay":0},{"id":"ccc","type":"SelectorLink","parentSelectors":["bbb"],"selector":"div.PCD_person_info a.WB_cardmore","multiple":false,"delay":"2000"},{"id":"ddd","type":"SelectorElement","parentSelectors":["ccc"],"selector":"div#plc_main","multiple":false,"delay":"3000"},{"id":"eee","type":"SelectorText","parentSelectors":["ddd"],"selector":"div.WB_cardwrap:nth-of-type(1) li.li_1:nth-of-type(1) span.pt_detail","multiple":false,"regex":"","delay":0},{"id":"address","type":"SelectorText","parentSelectors":["ddd"],"selector":"li.li_1:nth-of-type(2) span.pt_detail","multiple":false,"regex":"","delay":0},{"id":"sex","type":"SelectorText","parentSelectors":["ddd"],"selector":"li.li_1:nth-of-type(3) span.pt_detail","multiple":false,"regex":"","delay":0},{"id":"time","type":"SelectorText","parentSelectors":["ddd"],"selector":"li.li_1:nth-of-type(7) span.pt_detail","multiple":false,"regex":"","delay":0},{"id":"following","type":"SelectorText","parentSelectors":["ddd"],"selector":"td.S_line1:nth-of-type(1) strong.W_f18","multiple":false,"regex":"","delay":0},{"id":"followed","type":"SelectorText","parentSelectors":["ddd"],"selector":"td.S_line1:nth-of-type(2) strong.W_f18","multiple":false,"regex":"","delay":0},{"id":"content","type":"SelectorText","parentSelectors":["ddd"],"selector":"td.S_line1:nth-of-type(3) strong.W_f18","multiple":false,"regex":"","delay":0},{"id":"level","type":"SelectorText","parentSelectors":["ddd"],"selector":"p.level_info span.info:nth-of-type(1) span.S_txt1","multiple":false,"regex":"","delay":0},{"id":"vip","type":"SelectorText","parentSelectors":["ddd"],"selector":"p.info:nth-of-type(2)","multiple":false,"regex":"","delay":0},{"id":"birthday","type":"SelectorText","parentSelectors":["ddd"],"selector":"li.li_1:nth-of-type(4) span.pt_detail","multiple":false,"regex":"","delay":0}]}

需要输入 2 个信息:
1、复制粘贴,一字不差,如果提示错误,检查一下是不是一字不差,一字不差的意思是,一个标点符号都不能有误差。
2、英文字母,随便写。

image.png

填完以后,点击下面的 “Import Sitemap”

然后,点击中间下拉菜单,再点击 “scrape”

image.png

然后,点击 “start scraping”

image.png

然后,会弹出一个窗口,你需要做的就是 —— ,等他抓完。

这个时间,你可以在电脑上做其他任何事情,不要关掉这个弹出的窗口就行。

大概 10 - 20 分钟,就抓完了,具体时间根据具体情况定,抓完窗口就自动关闭了。

然后,你会看到下面这个图片,点击“refresh”

image.png

等出现一大堆数据后,点击中间菜单栏,点击 “export data as CSV”

image.png

点击 “download”

image.png

ok,抓取到的数据,已经下载到电脑上了,你可以用 excel 打开,看看里面有些什么?

image.png

可以看到 113 条数据,就是 113 个中奖名单,有昵称,地点,性别,注册日期,关注,粉丝数,帖子数,微博等级,会员等级,个性签名等。

可能你看到的会和上面的截图有些不一样,因为我已经把无关的信息列删掉了,你直接下载下来是没有删掉的,你可以研究一下那些多余的数据是什么?其实也蛮有趣的!

我们可以很清楚的看到,性别那列除了一个男,其他都是女,已经达到我们的目的了,但是能不能看起来更美观一点?

听说 excel 的透视表可以做那种看起来很有逼格的图表,透视表,一听就很难的样子,实际上,我只花了 1 分钟,然后发现,没学会,就放弃了。

我心里有一个声音在响,一定有更简单的方法做这个,一定有!

然后我就开始冥想,果然,突然灵光一闪,我想到了谷歌表格,(其实是我试了好多工具,发现谷歌表格最好用),应该可以做到这个。

麻利的打开谷歌,搜索“谷歌表格”,第一个网站,点进去,先新建一个空白表格。

然后管他三七二十一,先把要处理的数据粘贴上去,我把性别这一列数据粘贴到刚才新建的空白表格里面,如下——

image.png

我想,谷歌的产品号称简洁易操作,我选中要处理的这列,应该会有一个按钮,我一按,它就自动帮我生成一个图标之类的东西,嗯,肯定是这样。

管他呢!我点!点!点……

果然,在插入这个菜单下面,发现了一个叫「图表」的选项 ——

image.png

管他呢,先看看效果 ——


image.png

哈哈,不错,果然成功了!

但是这种展示比例的数据,之前看别人的图片,用那种圆饼的样子好像比较舒服,应该有按钮可以选择图表类型吧,管他呢,到处点点试一下!

果然,在右边发现了一个选项!刚好有我想要的圆饼图

image.png

管他呢,点了试试 ——

image.png

完美!

excel 里面的数据还有其他类型,都放上去做个图表吧,反正有那么多图标类型,都试一下,看哪个漂亮,就选哪个!

地域

image.png

上海、北京、广东人数最多,好像符合预期。

关注的人数

image.png

大部分用户关注的人都在 300 以内,还是蛮爱学习(八卦)的。

粉丝数

image.png

可以看到,粉丝数大于 5000 的只有 3个。

帖子

image.png

大部分人都是在 850 个帖子内。

微博等级

image.png

等级在 30 区间的最多,几乎占到了一半还多。

是否会员

image.png

会员 30%,非会员 70%,如果数据没有猫腻,这个比例可以用来评估微博的总体会员数,毕竟 2000w 的量足够覆盖到各个圈层,如果担心不准确,可以多找几个其他类别的数据,平均一下,也许王思聪的粉丝都比较有钱呢?

至此,借助上面的工具,我们实现了

1. 找到信息源头
2. 采集数据
3. 分析展示

这个完整流程。

我想说的是,上面这个例子,不仅仅是无聊凑热闹,这包含了面对一个信息,如何挖掘、整理、分析、展示的过程,可能中途你会遇到一些问题,但是大家注意到我上面的一个词没——

管他呢,先试试!

遇到问题不可怕,你遇到的问题,一定有解决方案。可怕的是,你小心翼翼,担心尝试的结果不如人意,浪费时间。

没事的,自己的主动尝试,后面的过程、结果,都会促进你的逻辑、思维更进一步,这个无形中锻炼出来的能力,在日后会带给你无穷的裨益。

在爬虫群里,我经常遇到一些朋友,遇到一个新网站,还没操作,就先来群里问,这个能不能抓?其实我内心是崩溃的,能不能抓,你应该自己先试一试,如果每次遇到新网站,都需要别人肯定后,才用勇气自己操作,那么永远也成长不了。

如果你下次遇到这种问题,自己还没试,就想着问别人,我希望你能想起来下面这句话——

没事,管他呢,先干!

上一篇下一篇

猜你喜欢

热点阅读